最近「蒸馏」知名人物这东西很红,我看了一下觉得有点怪。
在技术上它根本不是对大语言模型的「蒸馏」行为,而是对输入信息进行「摘要」。说得玄一点这东西可以叫「人格摘要」,但是说得简单一点,那就是「角色卡撰写」或者「肖像摘要」。
从技术上说,它完全没办法「复活」某个人,最多只能以一种拙劣的方式表演一个人。或者说,它就是一种模仿。如果你看过这类 Skill,会发现它的输出逻辑非常简单:分析这个人平时怎么说话、惯用词是什么、生活的波动规律如何,然后将这些特征一条条列出来。
这就像是一场舞台剧。你拿到了一本剧本,然后对着剧本表演。虽然其中加入了一些随机性,但内核依然是充分理解眼下的这个「剧本」,然后开始演绎。
数据生成过程
数据科学中有一个很 Fancy 的词:数据生成过程(Data Generation Process)。
如果我们把人类理解成一种超级复杂的多模态模型,那么我们的「输出」便取决于「过去经历的总和」加上「外部实时的刺激」。
一个人是如何被塑造的?从基因开始,从胎教开始,经历的每一件事都在塑造我们的人格表达。哪怕很多事情你已经忘记了,但它们的影响依然存在。你我今天能站在這裡说出一句只有我们自己说得出来的话,是过去所有经历的总和汇集起来的影响。
外部实时的刺激则包含了此时此刻你闻到的味道、屁股坐在椅子上的感觉、脚踩在地上的触感、空气的温度,甚至内脏感觉等多到令人难以想象的信息。
大语言模型没活过,目前也没有能力处理如此复杂的信息。它在做的是「拟合」,「拟合」的对象是你我,作为一个智人在某个时刻的输出。这种「拟合」绝对无法反映它「生成过程」中所经历的一切。
而 AI 拟合者没有能力把你过去的所有经历全部掏出来。除非有一天我们能实现真正的把脑袋切片,把大脑完整地模拟在计算机里,否则这种模拟也很难说就是「你」。
之前有一则新闻真的做了这个事情,说把苍蝇的大脑切片扫描,模拟在电脑中。但我们又要问,这台电脑能提供精确的外部环境信息模拟吗?如果不是,那模拟出来的东西,真的还是那只苍蝇吗?这会是一个很有趣的思维体操,你若感兴趣不妨和我一起多想想。
因此,所谓的「人格蒸馏」顶多是一场数据拟合的竞赛。它可以拟合得让人惊喜,但它无法活灵活现地演活一个人。如果你想通过这种方式去「复活」前任的爱情,我只能祝你好运。如果你想用它做点正经事情的话,我建议至少在后面再接一个 RAG 的 MCP 来时刻检索资料,不然有用性也会被极大削弱。
但话说回来,如果你在乎的只是资料而不是人格的话,倒也没必要让 LLM 费心做 Cosplay 了,一般的 RAG 就能解决很多问题。
我的实验
今天下午我花了很多精力尝试在这个方向上做努力,但最终我放弃了,因为我最终意识到到数据生成过程的复杂性决定了,它永远不能准确地模仿我。尽管结果只得到了一个 30% 不到的我,但产出的过程有趣,过程也是蛮值得记录的。
如你所知,大语言模型确实很擅长处理「格式」问题。它能精准地模拟我说话的长度,能正确地使用我习惯的 emoji,词汇的使用也大致准确。但一旦触及那些在「摘要」中没有被提取到的细节特质时,它就会犯错。它会用一些我根本不会使用的表达方式与我沟通。
我做这个实验的初衷,是希望通过技术手段,尝试以另一个客观视角来看待自己。就像把自己克隆了一个,让另一个「我」站在面前。我想试一试,如果我与一个客观的「我」进行对话,而非在内部进行主观的自我对话,会产生怎样的化学反应。
为了提高「拟合度」,我把能喂进去的数据全部喂了:博客文章、社交媒体发言、频道内容,甚至把我在一个群组里近十年的聊天记录全部抠出来喂给它。但是当我看到输出的那几个小小的 markdown,就发现它错失了好多我认为非常「我」的东西。
哪怕摘要提取过程有神相助,抽出来了一本千万字的小说。可能现今的模型们依然没有办法很好地表演这个剧本。因为所有大模型都有其上下文的极限,一旦数据量过多,它就会开始胡言乱语。即便现在像 DeepSeek 或 Claude 这样的模型缓解了这个问题,但大多数模型依然无法承载极其细致的人格特质提示词,无法处理一个极其复杂的个人肖像摘要。
甚且在实验过程中,我观察到模型处理信息其实相当粗糙。以 GLM 为例,它有种习惯性的「偷懒」:即便我要求它读一点、写一点笔记,最后再整理,它刚开始会照做,但走几次之后就会为了省事而变得敷衍。
即使我逼它深入思考、观察生活,最后出来的东西依然像在「隔靴搔痒」。它擅长整理信息,但无法感知到人之所以为人的灵魂,换言之,找不到重点。这种半吊子的拟合,让我不禁怀疑与它聊哲学、人工智能或社会学是否真的能让我看到自己。
流量和金钱对 Farmer 的异化
这也让我联想到目前的一种社会现象:这波爆火的「人格蒸馏」就是把这种「角色卡」包装成某种新鲜事物来炒作。他们赚取名声和广告费。但这真的新鲜吗?写小说的人早就这么干了,这真的就是一个「角色卡」而已。
我感到遗憾且不舒服的是,这种潮流在以一种不公平的方式消费人们。一些人在 GitHub 上把知名人物做成卡片,但参考信息可能只有两篇演讲或两个 Podcast,你可以想象结果会有多糟糕。
要知道,我为了拟合自己,投入了十年的聊天记录和极大的耐心,却依然没有看到一个活灵活现的东西。再来看看始作俑者的 GitHub 仓库上充斥的低质量提示词仓库,这个行为无疑就是 Farming。
他们通过大量填充低质内容来欺骗算法和读者,产生一种虚假的满足感,和与之努力不相称的眼球和流量。在我看来这是一种极其缺德的行为。
我曾遇到过一个在圈子里挺有名的人,他开发 Farming 工具,在 YouTube 上疯狂开频道做 AI 生成音乐。当我批评他是在破坏推荐算法、逼迫用户刷到低质内容时,他却用一套冠冕堂符的词汇掩盖:他说他很努力,说这没那么简单,他写的程序有他自己的思考,说他是在满足用户需求。
最近他做了一个另外一个糟糕的 Sora 仿制品,上架到 Google Play。有趣的是,后面的视频生成跑在一台 5090 显卡上,App 里面塞满了广告。当用户因为流量无法承载而给出一星好评时,他竟然在群里讨拍卖弄可怜,甚至炫耀他每五分钟扫描一次队列并且丢掉所有处理不了的任务,他将之视作是一个有效的「技术方案」。而在我们看来,这 App 从任何角度来讲都是广告点击诈骗。
在他看来,只要他「努力」地找赞助、「努力」地修 Bug,这种纯粹的流量诈骗就变成了某种「伟大且正直」的行为,甚至可以再把「你知道用户没有 Sora 用有多焦虑吗」搬出来当自己低道德行为的挡箭牌。
在那一瞬间我意识到:愚蠢的人往往意识不到自己愚蠢。那些做 Farming 的人,可能根本看不到他们正在伤害这个社会。金钱和流量异化了人,让人变得反社会。这是一件值得警醒的事情,想必我以后会时刻用它来提醒自己。
结语
总之,我最后得到了一份自己的「肖像摘要」。把它当个玩具玩玩很有趣,但作为 AI 时代的公民,我也看到了数据生成过程的复杂性,看到了这种方法你永远无法造出一个真实的人。
我们在做的只是在给一个并不在乎这件事的机器,赋予一个人工的剧本。我们可以喜欢提线木偶剧,可以自己做自己的提线木偶,但是也得清醒地看到,那还不是灵魂。
如果你想和螺姨 Mini 聊聊天的话,可以访问仓库,祝你玩得开心。

Loading comments...