播客频道 | Step Audio 2.5深度评测：对比GPT Realtime 2，国产语音AI差距多大？

最近语音AI这个赛道突然热闹起来了。OpenAI刚发了GPT Realtime 2，国内阶跃星辰几乎同一时间推出了Step Audio 2.5，这俩模型撞到一块儿了。今天咱们就来聊聊，国产实时语音AI到底走到哪一步了，跟OpenAI的差距还有多大。对，这个时间点确实很有意思。其实要理解这次的竞争，得先说一下背景。传统的语音交互是个流水线——先用ASR把语音转成文字，再让大模型生成文本回复，最后用TTS把文字念出来。这三步串下来，延迟通常要一到三秒，而且语气、情感这些信息在文字转换的过程中基本就丢了。嗯，就像你跟一个人打电话，中间还得经过一个翻译，那感觉肯定不对。哈哈对，就是这个意思。所以从去年开始，以GPT-4o为代表的端到端语音大模型开始崛起，把语音理解和生成直接融进大模型本身。不用再走那个流水线了，延迟大幅降低，语音表达的细节也保留得更好。这次GPT Realtime 2和Step Audio 2.5，走的都是这个路线。那我们先说说OpenAI这边。Realtime 2这次有什么让你印象比较深的？三个点。第一，推理能力大幅提升，官方说达到了GPT 5.5 Instruct的水平，也就是说这个语音模型不光能听能说，还能深度思考。第二，实时翻译几乎无延迟，官方演示的同传效果非常惊艳。第三，也是最关键的，语音能力直接架构在大模型之上，不是以前那种小模型加语音的拼接方案了。听起来确实强。但问题是，国内开发者想用OpenAI的东西，访问限制和合规性始终是绕不过去的坎。没错，这也是国产替代方案存在的核心意义。所以我们重点聊聊Step Audio 2.5。阶跃星辰这家公司是2023年成立的，创始人姜大昕之前是微软亚洲研究院的副院长，背后有腾讯、阿里投资，算是国内大模型赛道的头部创业公司了。那Step Audio 2.5这次主打的升级是什么？最核心的一点，跟OpenAI思路一样——把实时语音模型直接架构在大模型之上。你看以前的语音模型，背后通常就是个几十亿参数的小模型，能说话但不能深度思考。这就好比你请了一个口才很好但知识储备不够的客服，简单问题没问题，复杂的就答不上来了。Step Audio 2.5通过一些推理加速技术，让大参数量模型也能在实时场景下保持可接受的延迟，这是技术上的关键突破。实测下来效果怎么样？我觉得有几个地方确实不错。比如角色扮演，你可以让它扮演张飞、孙悟空这些角色，它不光能用对应身份说话，语音语调和语气特征也能模拟出来。还有一个闺蜜聊天的测试场景特别有意思，那个语气中的停顿、叹词、情感起伏处理得相当到位，比豆包的效果要好一些。你看这个就很关键。语音AI如果听起来像个机器人在念稿，那用户体验就大打折扣了。对，Step Audio 2.5在语音细节上确实下了功夫。对话中自然插入笑声、停顿、语气词，颗粒度很细，接近真人对话的自然度。这一点在国产语音模型里算比较突出的。那跟GPT Realtime 2正面比呢？差距在哪？其实各有优势。英文场景下，GPT的响应速度和自然度仍然领先，这个没什么悬念。但在中文场景下，Step Audio 2.5确实更胜一筹。测试中有个很有意思的细节——GPT Realtime 2在中文对话里出现了听不懂指令的情况，让它切换女声，它完全没反应，继续按自己的节奏输出。哈，这就有点尴尬了。是啊。简单说就是，中文理解Step Audio 2.5明显占优，英文自然度GPT领先，推理能力GPT更强一些，角色扮演两者差不多，但国内可用性这一项，Step Audio 2.5是碾压级的优势。不过我听说Step Audio 2.5首发的那个小月桌面端体验不太好？嗯，这是个比较大的问题。测试中发现安装后桌面上的推广框经常卡死，严重影响使用，最后不得不卸载。从社群活跃度来看，回流用户也不多。这其实暴露了一个很常见的坑——模型能力强不等于产品体验好。你基础体验都保障不了，再强的模型也没法转化成用户价值。这个确实是国内AI产品的通病，技术上很用力，但产品打磨不够。那对开发者来说，API这块怎么样？好消息是阶跃星辰发布模型的同时就开放了API文档，这点比很多国产模型强。定价方面，输入是10元每百万tokens，如果缓存命中的话只要2元。这里解释一下，比如你做客服机器人，系统提示词是固定的，每次调用都一样，那这部分就可以走缓存，只收五分之一的价格。那整体成本高不高？说实话不算便宜。我算了一下，一分钟语音输入大概花一两分钱，听起来不多，但如果是智能客服这种高并发场景，每天十万通电话，月度成本可能到数万元。比传统ASR加TTS方案贵三到五倍。不过考虑到端到端模型带来的理解能力和表达自然度的提升，这个溢价也不是不能接受。所以开发者选型的时候得看场景。对。如果是重度中文语音交互，比如客服、AI陪伴、教育类应用，Step Audio 2.5是目前国内比较靠谱的选择。如果是轻量级场景，对延迟和情感表达要求不高，传统的TTS加ASR加LLM组合方案成本更低。如果是多语言或者英文为主的场景，合规允许的话，GPT Realtime 2还是更好的选择。最后总结一下的话，Step Audio 2.5你怎么评价？有亮点但仍需打磨。语音自然度、角色扮演、中文理解这些方面确实不错，部分场景优于豆包等竞品。但产品稳定性和定价策略还有明显的提升空间。整体来看，国产实时语音AI正在从能用走向好用，追赶的速度比很多人预期的要快，但跟OpenAI的差距客观存在，尤其是在推理能力和英文场景上。嗯，实时语音AI这场仗才刚开始打。2025年下半年各家肯定还会有大动作，到时候咱们再来聊聊新的进展。

Step Audio 2.5深度评测：对比GPT Realtime 2，国产语音AI差距多大？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报