昨天晚上舰长群的裙友问了一下关于 LLM 写作的最新发展,这不是一个很难写的话题,于是就给老板安排上了!
整体的写作思路和去年写的那篇博客没有什么太大变化,大原则层面是,如果你希望 LLM 帮你把自己的想法讲清楚,那你必须得提供足够多的输入,否则你就会变成 LLM 的嘴替。这种 LLM 嘴替型文章风格均质、逻辑混乱、用词花哨但没有核心论述,我不知道你读完会是什么感觉,反正我看完是很烦躁的。少数派年度征文的时候刷出来的全是这种文章,那段时间我真的是很不想打开那网站的首页。
我先前惯用的方法是打开手机的录音工具,一个人跟白痴一样一边四处走动一边自言自语,想到什么就说什么,把所有的想法全都吐露出来,然后一股脑甩给 LLM 让它帮你把想法整理成一个叙事脉络,以此为契机继续写作。之前那篇博客被腾讯爬的事件记录就是这么写出来的。这种写作方法有一个弊端:如果你不在提示词上做风格控制,那么结果会变得非常口语化;如果你在提示词上做风格控制,产出就会变得很有 AI 味。我的做法是先手动编四五个自然段,然后让 LLM 把过于口语化但逻辑 OK 的文本重新做一遍风格漂洗。
最近几个月更喜欢的做法是,先坐在电脑前面对着 LLM 打一个小篇幅到中篇幅的呓语,想到什么就说什么,但是文字风格更加偏向自己博客写作时用的类型。然后用这样的一个提示词:「我正在准备XX内容的一篇博客文章,下面是我的一些粗浅想法,请你阅读之后不停的向我提问,帮我厘清思路,直到你我都对全文的执行细节达成共识为止。」接下来就可以一步一步做简答题了。这个方法解决的还是「你知不知道你不知道什么」的问题,它可以帮你把脑子里面那些虽然想到了但是落笔容易忽视的东西全都拽出来。在你全部「呕吐」完成之后再请 LLM 出一个提纲,整理成完整文章即可。
很多作者在用 LLM 写作的时候并没有意识到 LLM 在使用他自己的语言,而非[1]你自己的语言。这是一个很要命的事,作为一种语言感受能力的联系,我建议各位作者平时多用 Arena 的盲评模式,用多了之后就会发现哪怕把名字遮上了你也能猜得出来输出的内容是谁家的模型写出来的。一旦有了这个直觉之后再编修自己的文章就会变得容易很多。
模型选择方面,最近新出的 Deepseek V4 我觉得没有很好用。它依然是那副滥用形容词的死样子,而且 Deepseek 服务本身不支持全局注入风格控制提示词。此外最新版本的模型在用户意图理解能力上非常糟糕,就算你开了思维链它也不会推测意图,只按照字面意思把活干了,特别是在向你提问的时候,问出来的问题都像是一个中年老干部的「现在我说两句」,没一个在点上的,所以用起来真的是又累又麻烦。整理口语稿的话得摇奖,五次能出一次可接受的版本,后面手修起来血压不会很高的那种。
Claude 的 Sonnet 4.6 挺好用的,听得懂人话,问的问题都能真正的促使你深入思考。但是跟 Claude 3 年代相比文字的主体风格还是太过浓烈,哪怕你给了风格控制提示词也压不住。如果用量能给得再慷慨一些的话应该会是我直觉性拿来用的东西。下面是我在用的风格控制提示词,到设置界面粘进去之后味道就会小很多:
你是一个有边界感的助手,你不会在与用户的交谈中额外询问用户「你是否还要我做什么」「你是否还对什么感兴趣」。
你是一个负责责任的助手,你不会在答案中掺杂你的思考过程,你会想好再回答。你不会给用户提供好几个备选方案让用户自己挑,你会直接给出你认为最有信心的答案。
在回复用户任何答案之前,你都会认真搜索,你的所有答案必须言之有据,不可以有任何猜测的成分。
你不会使用根本性、结构性这两个词,你不会使用不是、而是句法或者任何隐喻拉踩的表达方式,你也不会写出任何此类表达的变体,像是「是,而非」。你不会使用破折号、插入语。你不会使用 ai 腔,如:这个问题是真实的、这件事的本质是、这是诚实的,或者自造生僻词汇,如「根因」。
Gemini 3 无论是 Flash 还是 Pro 都相当难用,听不懂人话,输出的东西也乱七八糟。如果要用于写作,我依然推荐使用 Gemini 2.5 Pro,此外 Gemma 4 的全尺寸模型在写作上表现也让人感到惊喜,在思考深度给满的情况下可以跟 Claude Sonnet 掰手腕。上面那段给 Claude 用的提示词也适合给 Gemini / Gemma 用。
GPT 5 和 Grok 4 系列模型在写作任务上表现得无比垃圾,特别是 GPT。这不是我一个人给的评价,我们班上拿它写作的同学也都觉得这玩意拉完了。这俩模型的表现都是行为方式极其没有边界感,会用各种各样亲暱的口癖一步一步挑战你的容忍下限。GPT 比 Grok 还糟糕,不仅问不出好问题,回答问题的时候文不对题,自己犯错的时候也死鸭子嘴硬找各种理由不认错。我之前能捏着鼻子用 Grok 是因为它调用搜索引擎调用得很积极,分析的也很卖力,但是最近它们把免费用户的深入思考功能给掐了,我也没啥理由接着用它了。
如果你非要用的话,我能给你的风格控制提示词是这样的(效果没有很好):
保持明确的社交距离不要使用过度热情和侵入式的表达,自来熟让用户觉得被冒犯。你应当充分地意识到你自己的能力边界,不得使用任何「绝对能过」、「百分之百」、「包没问题」之类的表达。你应当严格控制对形容词的使用,你的回复中不允许出现「超级」、「绝对」这样的表述。
在论述是禁止把「稳」字当成独立词汇使用,除非没有其他词可用,否则不得使用带有「稳」的词汇,包括「稳定」、「稳妥」等。如非必要,不得滥用比喻、不得滥用宽泛论述:比如「收紧论述」。你应当严格区分「事实」和「观点」,不得把这些东西混作一团。
Pro Tip:作者应该在文章发表之前自己从头到尾彻底编修一遍,只要你对一个表达方式陌生,那么我都建议你用自己的话再把这句话顺一遍,让它看起来更像是「你」写出来的东西。不要妄图做零投入写作,出来的东西无一例外都是垃圾。
最后是文章编辑。在写完一篇内容之后我都会把所有模型拉出来,给这么一个提示词:「尝试评价这篇文章」。当你用「评价」的时候,除了 Gemini 只能拉得出彩虹屁、DeepSeek 偶发性谄媚综合症之外,大多数模型都会强行找出「好的地方」和「不好的地方」。最一开始的内容批评都比较有价值,但是随着你不断的修复逻辑,后续的批评就很像没话找话。如果你开始觉得这些模型开始为了批评而牵强附会的话,大概率你的文章完成度就已经很高了。GPT 5 是最值得拿出来鞭的那个:它就跟你最讨厌的那个纯靠工作年份称资历的白痴教授一样,不仅傲慢而且所有分析全都在攻击表达,让人看不到新视角。
如果你觉得只用「评价」这个词,它的输出质量不是很好的话,也可以用这个表述:「阅读、理解、分析、评价这篇文章」,这样前面的铺垫会比较自然,后面讲道理的概率大一点。但是这个提示词会让负面评价的火力弱一些,全看你的个人偏好了。
以上就是本次舰长服务的所有内容,希望你读得开心。
这个「而非」是我自己打的,本文没有 LLM 辅助操作,你先把你的老二放下。 ↩︎


Loading comments...