观点

「人格蒸馏」是一种愚蠢的谎言

LOSSES ‧ 2026-04-13

最近「蒸馏」知名人物这东西很红，我看了一下觉得有点怪。

在技术上它根本不是对大语言模型的「蒸馏」行为，满打满算也就只能称得上是对输入信息进行「摘要」。说得玄一点这东西可以叫「人格摘要」，但是说得简单一点，那就是「角色卡撰写」或者「肖像摘要」。

从技术上说，它完全没办法「复活」某个人，最多只能以一种拙劣的方式表演一个人。或者说，它就是一种模仿。如果你看过这类 Skill，会发现它的输出逻辑非常简单：分析这个人平时怎么说话、惯用词是什么、生活的波动规律如何，然后将这些特征一条条列出来。

这就像是一场舞台剧。你拿到了一本剧本，然后对着剧本表演。虽然其中加入了一些随机性，但内核依然是充分理解眼下的这个「剧本」，然后开始演绎。

数据生成过程

数据科学中有一个很 Fancy 的词：数据生成过程（Data Generation Process）。

如果我们把人类理解成一种超级复杂的多模态模型，那么我们的「输出」便取决于「过去经历的总和」加上「外部实时的刺激」。

一个人是如何被塑造的？从基因开始，从胎教开始，经历的每一件事都在塑造我们的人格表达。哪怕很多事情你已经忘记了，但它们的影响依然存在。你我今天能站在這裡说出一句只有我们自己说得出来的话，是过去所有经历的总和汇集起来的影响。

外部实时的刺激则包含了此时此刻你闻到的味道、屁股坐在椅子上的感觉、脚踩在地上的触感、空气的温度，甚至内脏感觉等多到令人难以想象的信息。

大语言模型没活过，目前也没有能力处理如此复杂的信息。它在做的是「拟合」，「拟合」的对象是你我，作为一个智人在某个时刻的输出。这种「拟合」绝对无法反映它「生成过程」中所经历的一切。

而 AI 拟合者没有能力把你过去的所有经历全部掏出来。除非有一天我们能实现真正的把脑袋切片，把大脑完整地模拟在计算机里，否则这种模拟也很难说就是「你」。

之前有一则新闻真的做了这个事情，说把苍蝇的大脑切片扫描，模拟在电脑中。但我们又要问，这台电脑能提供精确的外部环境信息模拟吗？如果不是，那模拟出来的东西，真的还是那只苍蝇吗？这会是一个很有趣的思维体操，你若感兴趣不妨和我一起多想想。

因此，所谓的「人格蒸馏」顶多是一场数据拟合的竞赛。它可以拟合得让人惊喜，但它无法活灵活现地演活一个人。如果你想通过这种方式去「复活」前任的爱情，我只能祝你好运。如果你想用它做点正经事情的话，我建议至少在后面再接一个 RAG 的 MCP 来时刻检索资料，不然有用性也会被极大削弱。

但话说回来，如果你在乎的只是资料而不是人格的话，倒也没必要让 LLM 费心做 Cosplay 了，一般的 RAG 就能解决很多问题。

我的实验

今天下午我花了很多精力尝试在这个方向上做努力，但最终我放弃了，因为我最终意识到到数据生成过程的复杂性决定了，它永远不能准确地模仿我。尽管结果只得到了一个 30% 不到的我，但产出的过程有趣，过程也是蛮值得记录的。

如你所知，大语言模型确实很擅长处理「格式」问题。它能精准地模拟我说话的长度，能正确地使用我习惯的 emoji，词汇的使用也大致准确。但一旦触及那些在「摘要」中没有被提取到的细节特质时，它就会犯错。它会用一些我根本不会使用的表达方式与我沟通。

我做这个实验的初衷，是希望通过技术手段，尝试以另一个客观视角来看待自己。就像把自己克隆了一个，让另一个「我」站在面前。我想试一试，如果我与一个客观的「我」进行对话，而非在内部进行主观的自我对话，会产生怎样的化学反应。

为了提高「拟合度」，我把能喂进去的数据全部喂了：博客文章、社交媒体发言、频道内容，甚至把我在一个群组里近十年的聊天记录全部抠出来喂给它。但是当我看到输出的那几个小小的 markdown，就发现它错失了好多我认为非常「我」的东西。

哪怕摘要提取过程有神相助，抽出来了一本千万字的小说。可能现今的模型们依然没有办法很好地表演这个剧本。因为所有大模型都有其上下文的极限，一旦数据量过多，它就会开始胡言乱语。即便现在像 DeepSeek 或 Claude 这样的模型缓解了这个问题，但大多数模型依然无法承载极其细致的人格特质提示词，无法处理一个极其复杂的个人肖像摘要。

甚且在实验过程中，我观察到模型处理信息其实相当粗糙。以 GLM 为例，它有种习惯性的「偷懒」：即便我要求它读一点、写一点笔记，最后再整理，它刚开始会照做，但走几次之后就会为了省事而变得敷衍。

即使我逼它深入思考、观察生活，最后出来的东西依然像在「隔靴搔痒」。它擅长整理信息，但无法感知到人之所以为人的灵魂，换言之，找不到重点。这种半吊子的拟合，让我不禁怀疑与它聊哲学、人工智能或社会学是否真的能让我看到自己。

流量和金钱对 Farmer 的异化

这也让我联想到目前的一种社会现象：这波爆火的「人格蒸馏」就是把这种「角色卡」包装成某种新鲜事物来炒作。他们赚取名声和广告费。但这真的新鲜吗？写小说的人早就这么干了，这真的就是一个「角色卡」而已。

我感到遗憾且不舒服的是，这种潮流在以一种不公平的方式消费人们。一些人在 GitHub 上把知名人物做成卡片，但参考信息可能只有两篇演讲或两个 Podcast，你可以想象结果会有多糟糕。

要知道，我为了拟合自己，投入了十年的聊天记录和极大的耐心，却依然没有看到一个活灵活现的东西。再来看看始作俑者的 GitHub 仓库上充斥的低质量提示词仓库，这个行为无疑就是 Farming。

他们通过大量填充低质内容来欺骗算法和读者，产生一种虚假的满足感，和与之努力不相称的眼球和流量。这在我看来这是一种极其缺德的行为。

我曾遇到过一个在圈子里挺有名的人，他开发 Farming 工具，在 YouTube 上疯狂开频道做 AI 生成音乐。当我批评他是在破坏推荐算法、逼迫用户刷到低质内容时，他却用一套冠冕堂符的词汇掩盖：他说他很努力，说这没那么简单，他写的程序有他自己的思考，说他是在满足用户需求。

最近他做了一个另外一个糟糕的 Sora 仿制品，上架到 Google Play。有趣的是，后面的视频生成跑在一台 5090 显卡上，App 里面塞满了广告。当用户因为流量无法承载而给出一星好评时，他竟然在群里讨拍卖弄可怜，甚至炫耀他每五分钟扫描一次队列并且丢掉所有处理不了的任务，他将之视作是一个有效的「技术方案」。而在我们看来，这 App 从任何角度来讲都是广告点击诈骗。

在他看来，只要他「努力」地找赞助、「努力」地修 Bug，这种纯粹的流量诈骗就变成了某种「伟大且正直」的行为，甚至可以再把「你知道用户没有 Sora 用有多焦虑吗」搬出来当自己低道德行为的挡箭牌。

在那一瞬间我意识到：愚蠢的人往往意识不到自己愚蠢。那些做 Farming 的人，可能根本看不到他们正在伤害这个社会。金钱和流量异化了人，让人变得反社会。这是一件值得警醒的事情，想必我以后会时刻用它来提醒自己。

结语

总之，我最后得到了一份自己的「肖像摘要」。把它当个玩具玩玩很有趣，但作为 AI 时代的公民，我也看到了数据生成过程的复杂性，看到了这种方法你永远无法造出一个真实的人。

我们在做的只是在给一个并不在乎这件事的机器，赋予一个人工的剧本。我们可以喜欢提线木偶剧，可以自己做自己的提线木偶，但是也得清醒地看到，那还不是灵魂。

如果你想和螺姨 Mini 聊聊天的话，可以访问仓库，祝你玩得开心。