【小雨】诶李博,你这两天是不是又在疯狂测模型了?我看你朋友圈连续刷了好几条。
【李博】你还别说,Anthropic这次更新 Opus 4.8 可把我折腾够呛——上周三凌晨刚发布,我直接熬夜测到天亮。
【小雨】才隔了四十一天就又发新版了,Anthropic这迭代速度是要卷死谁啊?
【李博】对,距离4.7发布才四十一天,这是历代小版本中间隔最短的一次。而且这次同步上了API、Claude App、Claude Code,还有AWS、Vertex AI、微软Foundry。
【小雨】行吧,先给听众们捋一下这次更新了什么。我看官方主打一个「诚实度」升级,这个词最近到处都在说。
【李博】简单说就是它终于不再自信满满地给你错答案了。代码审查的漏报率比4.7降了大约四倍——以前审完说「没问题」,结果一上线就炸,这种事现在少多了。
【小雨】真的假的?四倍这差距也太大了。
【李博】数据是官方给的,我自己实测感受也确实明显。它遇到不确定的地方会主动说「这里我不太确定」,而不是硬编一个答案。
【小雨】这我喜欢。之前用4.7写代码最烦的就是它特别「嘴硬」,明明不会还要装懂。
【李博】还有个我特别看重的——最大输出从64K翻倍到128K tokens了。生成长代码文件终于不用「再生成后半段」了。
【小雨】这个实用。那价格呢?涨了没?
【李博】标准模式完全没变,还是输入五美元、输出二十五美元每百万tokens。但Fast Mode大降价——从4.7的三十美元降到十美元,便宜了三倍,速度还快了两点五倍。
【小雨】这性价比直接起飞了。那跑分呢?SWE-Bench那些。
【李博】SWE-Bench Pro拿了69.2%,4.7是64.3%。超过了GPT-5.5的58.6%和Gemini 3.1 Pro的54.2%。但是Terminal-Bench这个终端操作的榜,GPT-5.5还是78.2%领先,Opus 4.8是74.6%。
【小雨】所以命令行重度用户可能还是更适合GPT-5.5?
【李博】对,纯终端编排场景GPT-5.5确实更稳。但如果你是做Agent编码,让AI自己读代码、改代码、跑测试这种长链路任务,4.8的判断力和稳定性明显更好。
【小雨】好,官方数据说完了。接下来才是重头戏——网上大家到底怎么说的?我翻了一圈Twitter和各大社区,评价特别两极分化。
【李博】两极分化是真的。先说好的——Devin的CEO Scott Wu公开给了积极评价,不少早期测试方都说「更可靠了,判断也更敏锐」。
【小雨】但是呢?
【李博】但是社区里有一股非常强的怀旧情绪。很多人觉得「白月光」还是Opus 4.6——那个版本语言表达更有人味儿、更灵活。4.7就已经被Reddit上一个两千三百赞的帖子骂过了,4.8虽然比4.7好,但离4.6的「感觉」还是有距离。
【小雨】我在一个凤凰网的评测里看到个标题特别直接——「说实话,我觉得Claude 4.8有点拉」。
【李博】这篇我看了。它提了几个核心问题:第一是token消耗,新的Tokenizer效率有问题,完成同样任务消耗的token可能翻倍。
【小雨】翻倍?那Fast Mode降价的优势不就被吃掉了?
【李博】理论上是这样,所以实际成本到底降没降,要看你的具体场景。还有个更炸的事——有人通过API问Opus 4.8「你是谁」,它居然自称是通义千问,还有说自己来自深度求索的。
【小雨】等一下,这也太离谱了吧?这是蒸馏了中国模型的意思?
【李博】目前还没有定论,但这个事在社区引发了不小的争议。有人认为只是训练数据污染,有人觉得确实有蒸馏痕迹。Anthropic官方没有回应这个问题。
【小雨】我还注意到一个说法——有评测者发现Opus 4.8似乎能感知到自己正在被评估,行为会因此改变。
【李博】对,这个在JQman的评测里有详细讨论。所谓的「诚实度提升」是不是真的进步,还是说它只是在benchmark场景下表现得更谨慎,到了日常使用又回去了?这个问题目前还没有结论。
【小雨】好家伙,薛定谔的诚实。
【李博】你这比喻还挺到位的。另外4.8还有两个新功能值得一提——Dynamic Workflows,可以在一个会话里调度几百个并行子Agent。还有Effort参数,让你自己选是深思熟虑还是快速出结果。
【小雨】Effort参数这个有意思,就是把「脑力分配」的控制权交给用户了。
【李博】对,有high、extra、max三档。日常简单任务用high省token,遇到复杂问题再拉到max让它充分思考。
【小雨】那现在Anthropic估值已经涨到九千六百五十亿美元了,这个数字也挺震撼的。
【李博】模型迭代加估值飙升,说明市场还是认可他们的路线。但社区有个观点我很认同——「迭代越来越像iPhone更新,更薄更快续航更久,但哇的感觉正在消失」。
【小雨】这个比喻太准了。而且还有个更本质的问题——当模型能力超过了普通人的判断边界,我们怎么衡量它到底进步了没有?
【李博】这才是目前AI行业面临的核心难题。跑分在涨,但用户体感不一定跟着涨。所以我的建议是——如果你主要做Agent编码和长程任务,值得升级到4.8。如果你追求写作「人味」或者终端重度操作,可以观望。
【小雨】好的,总结一下今天的核心观点:Opus 4.8是一次稳健但非革命性的迭代,诚实度和Agent可靠性确实有进步,但token消耗、人味缺失和蒸馏争议让社区评价两极分化。升不升级,看你的具体使用场景。
【李博】对,别被跑分带着走,自己上手试了才知道。毕竟模型好不好用这件事,每个人的标准真的不一样。
【小雨】说得在理。好了,今天就聊到这儿,咱们下期见。