#34 原始数据是宝藏
2026-06-11
最近有一个越来越强烈的感觉——在这个 AI 时代,原始数据是一份宝藏。
大家都在聊模型多厉害、工具多好用、prompt 怎么写。但很多人没有在意一个更本质的问题:喂给这些模型的东西,从哪来?
.
.
.
想想看,一个 AI 模型再强,没有数据它什么都不是。
大语言模型强大是因为它吃掉了整个互联网的文本。但我们的竞争力不在于我们能调用多强的模型——所有人都能调用同一个模型。一个人的竞争力在于他有别人没有的数据。
多年积累的笔记、工作日志、写过的每一行代码、收藏过的每一个链接、和同事的对话记录、阅读批注——这些东西在以前只是个人习惯,现在它们是燃料。
.
.
.
我自己就有一个很深的体会。
我从很早就开始用 Plain Text 记笔记,什么都往里面塞——开会的记录、技术调研的碎片、读书时的想法、偶尔闪过的灵感。当时只是觉得「反正记下来又不费什么事」,从没想过这些东西以后能有什么大用。
但现在,当我把这些原始笔记喂给 AI 的时候,它能帮我从里面挖出我自己都忘了的想法、找到跨越几年的思路连接、把散落各处的碎片拼成完整的图景。
那些年不经意间积累的 raw data,突然变成了金矿。
.
.
.
这个道理其实可以推广得更远。
很多公司坐在数据金矿上而不自知。那些堆在角落里的 log、那些没人看的客服记录、那些格式乱七八糟的历史文档——过去它们是负担(占硬盘、难维护),现在它们是资产。因为 AI 不怕脏数据、不怕非结构化、不怕量大。它恰恰最擅长从混乱中提取秩序。
关键在于——得先有这些数据。删掉了就没了。
.
.
.
所以我现在的原则很简单:
能记就记,能存就存,格式不重要,存在最重要。
不要因为「现在看不出有什么用」就不记。不要因为「格式不够整齐」就不存。不要因为「容量有限」就随手删掉。存储越来越便宜,但数据一旦丢了,花多少钱都买不回来。
未来的我会感谢现在的我留下的每一个字节。
.
.
.
AI 时代最被低估的能力可能有两个:一个是提出好问题,一个是拥有好数据。
模型会迭代,工具会更新,Prompt 的技巧会过时,但我们的数据——我们独一无二的、别人无法复制的原始数据,只会随着时间的推移越来越值钱。
所以,别光顾着追模型了。回头看看自己手里的那些 raw data 吧。那才是真正的护城河。