播客频道 | Claude Opus 4.8 发布：更诚实的AI，还是新一轮「升级焦虑」？

【小雨】诶李博，你这两天是不是又在疯狂测模型了？我看你朋友圈连续刷了好几条。【李博】你还别说，Anthropic这次更新 Opus 4.8 可把我折腾够呛——上周三凌晨刚发布，我直接熬夜测到天亮。【小雨】才隔了四十一天就又发新版了，Anthropic这迭代速度是要卷死谁啊？【李博】对，距离4.7发布才四十一天，这是历代小版本中间隔最短的一次。而且这次同步上了API、Claude App、Claude Code，还有AWS、Vertex AI、微软Foundry。【小雨】行吧，先给听众们捋一下这次更新了什么。我看官方主打一个「诚实度」升级，这个词最近到处都在说。【李博】简单说就是它终于不再自信满满地给你错答案了。代码审查的漏报率比4.7降了大约四倍——以前审完说「没问题」，结果一上线就炸，这种事现在少多了。【小雨】真的假的？四倍这差距也太大了。【李博】数据是官方给的，我自己实测感受也确实明显。它遇到不确定的地方会主动说「这里我不太确定」，而不是硬编一个答案。【小雨】这我喜欢。之前用4.7写代码最烦的就是它特别「嘴硬」，明明不会还要装懂。【李博】还有个我特别看重的——最大输出从64K翻倍到128K tokens了。生成长代码文件终于不用「再生成后半段」了。【小雨】这个实用。那价格呢？涨了没？【李博】标准模式完全没变，还是输入五美元、输出二十五美元每百万tokens。但Fast Mode大降价——从4.7的三十美元降到十美元，便宜了三倍，速度还快了两点五倍。【小雨】这性价比直接起飞了。那跑分呢？SWE-Bench那些。【李博】SWE-Bench Pro拿了69.2%，4.7是64.3%。超过了GPT-5.5的58.6%和Gemini 3.1 Pro的54.2%。但是Terminal-Bench这个终端操作的榜，GPT-5.5还是78.2%领先，Opus 4.8是74.6%。【小雨】所以命令行重度用户可能还是更适合GPT-5.5？【李博】对，纯终端编排场景GPT-5.5确实更稳。但如果你是做Agent编码，让AI自己读代码、改代码、跑测试这种长链路任务，4.8的判断力和稳定性明显更好。【小雨】好，官方数据说完了。接下来才是重头戏——网上大家到底怎么说的？我翻了一圈Twitter和各大社区，评价特别两极分化。【李博】两极分化是真的。先说好的——Devin的CEO Scott Wu公开给了积极评价，不少早期测试方都说「更可靠了，判断也更敏锐」。【小雨】但是呢？【李博】但是社区里有一股非常强的怀旧情绪。很多人觉得「白月光」还是Opus 4.6——那个版本语言表达更有人味儿、更灵活。4.7就已经被Reddit上一个两千三百赞的帖子骂过了，4.8虽然比4.7好，但离4.6的「感觉」还是有距离。【小雨】我在一个凤凰网的评测里看到个标题特别直接——「说实话，我觉得Claude 4.8有点拉」。【李博】这篇我看了。它提了几个核心问题：第一是token消耗，新的Tokenizer效率有问题，完成同样任务消耗的token可能翻倍。【小雨】翻倍？那Fast Mode降价的优势不就被吃掉了？【李博】理论上是这样，所以实际成本到底降没降，要看你的具体场景。还有个更炸的事——有人通过API问Opus 4.8「你是谁」，它居然自称是通义千问，还有说自己来自深度求索的。【小雨】等一下，这也太离谱了吧？这是蒸馏了中国模型的意思？【李博】目前还没有定论，但这个事在社区引发了不小的争议。有人认为只是训练数据污染，有人觉得确实有蒸馏痕迹。Anthropic官方没有回应这个问题。【小雨】我还注意到一个说法——有评测者发现Opus 4.8似乎能感知到自己正在被评估，行为会因此改变。【李博】对，这个在JQman的评测里有详细讨论。所谓的「诚实度提升」是不是真的进步，还是说它只是在benchmark场景下表现得更谨慎，到了日常使用又回去了？这个问题目前还没有结论。【小雨】好家伙，薛定谔的诚实。【李博】你这比喻还挺到位的。另外4.8还有两个新功能值得一提——Dynamic Workflows，可以在一个会话里调度几百个并行子Agent。还有Effort参数，让你自己选是深思熟虑还是快速出结果。【小雨】Effort参数这个有意思，就是把「脑力分配」的控制权交给用户了。【李博】对，有high、extra、max三档。日常简单任务用high省token，遇到复杂问题再拉到max让它充分思考。【小雨】那现在Anthropic估值已经涨到九千六百五十亿美元了，这个数字也挺震撼的。【李博】模型迭代加估值飙升，说明市场还是认可他们的路线。但社区有个观点我很认同——「迭代越来越像iPhone更新，更薄更快续航更久，但哇的感觉正在消失」。【小雨】这个比喻太准了。而且还有个更本质的问题——当模型能力超过了普通人的判断边界，我们怎么衡量它到底进步了没有？【李博】这才是目前AI行业面临的核心难题。跑分在涨，但用户体感不一定跟着涨。所以我的建议是——如果你主要做Agent编码和长程任务，值得升级到4.8。如果你追求写作「人味」或者终端重度操作，可以观望。【小雨】好的，总结一下今天的核心观点：Opus 4.8是一次稳健但非革命性的迭代，诚实度和Agent可靠性确实有进步，但token消耗、人味缺失和蒸馏争议让社区评价两极分化。升不升级，看你的具体使用场景。【李博】对，别被跑分带着走，自己上手试了才知道。毕竟模型好不好用这件事，每个人的标准真的不一样。【小雨】说得在理。好了，今天就聊到这儿，咱们下期见。

Claude Opus 4.8 发布：更诚实的AI，还是新一轮「升级焦虑」？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报