#34 原始数据是宝藏

2026-06-11

最近有一个越来越强烈的感觉——在这个 AI 时代，原始数据是一份宝藏。

大家都在聊模型多厉害、工具多好用、prompt 怎么写。但很多人没有在意一个更本质的问题：喂给这些模型的东西，从哪来？

想想看，一个 AI 模型再强，没有数据它什么都不是。

大语言模型强大是因为它吃掉了整个互联网的文本。但我们的竞争力不在于我们能调用多强的模型——所有人都能调用同一个模型。一个人的竞争力在于他有别人没有的数据。

多年积累的笔记、工作日志、写过的每一行代码、收藏过的每一个链接、和同事的对话记录、阅读批注——这些东西在以前只是个人习惯，现在它们是燃料。

我自己就有一个很深的体会。

我从很早就开始用 Plain Text 记笔记，什么都往里面塞——开会的记录、技术调研的碎片、读书时的想法、偶尔闪过的灵感。当时只是觉得「反正记下来又不费什么事」，从没想过这些东西以后能有什么大用。

但现在，当我把这些原始笔记喂给 AI 的时候，它能帮我从里面挖出我自己都忘了的想法、找到跨越几年的思路连接、把散落各处的碎片拼成完整的图景。

那些年不经意间积累的 raw data，突然变成了金矿。

这个道理其实可以推广得更远。

很多公司坐在数据金矿上而不自知。那些堆在角落里的 log、那些没人看的客服记录、那些格式乱七八糟的历史文档——过去它们是负担（占硬盘、难维护），现在它们是资产。因为 AI 不怕脏数据、不怕非结构化、不怕量大。它恰恰最擅长从混乱中提取秩序。

关键在于——得先有这些数据。删掉了就没了。

所以我现在的原则很简单：

能记就记，能存就存，格式不重要，存在最重要。

不要因为「现在看不出有什么用」就不记。不要因为「格式不够整齐」就不存。不要因为「容量有限」就随手删掉。存储越来越便宜，但数据一旦丢了，花多少钱都买不回来。

未来的我会感谢现在的我留下的每一个字节。

AI 时代最被低估的能力可能有两个：一个是提出好问题，一个是拥有好数据。

模型会迭代，工具会更新，Prompt 的技巧会过时，但我们的数据——我们独一无二的、别人无法复制的原始数据，只会随着时间的推移越来越值钱。

所以，别光顾着追模型了。回头看看自己手里的那些 raw data 吧。那才是真正的护城河。