最近语音AI这个赛道突然热闹起来了。OpenAI刚发了GPT Realtime 2,国内阶跃星辰几乎同一时间推出了Step Audio 2.5,这俩模型撞到一块儿了。今天咱们就来聊聊,国产实时语音AI到底走到哪一步了,跟OpenAI的差距还有多大。
对,这个时间点确实很有意思。其实要理解这次的竞争,得先说一下背景。传统的语音交互是个流水线——先用ASR把语音转成文字,再让大模型生成文本回复,最后用TTS把文字念出来。这三步串下来,延迟通常要一到三秒,而且语气、情感这些信息在文字转换的过程中基本就丢了。
嗯,就像你跟一个人打电话,中间还得经过一个翻译,那感觉肯定不对。
哈哈对,就是这个意思。所以从去年开始,以GPT-4o为代表的端到端语音大模型开始崛起,把语音理解和生成直接融进大模型本身。不用再走那个流水线了,延迟大幅降低,语音表达的细节也保留得更好。这次GPT Realtime 2和Step Audio 2.5,走的都是这个路线。
那我们先说说OpenAI这边。Realtime 2这次有什么让你印象比较深的?
三个点。第一,推理能力大幅提升,官方说达到了GPT 5.5 Instruct的水平,也就是说这个语音模型不光能听能说,还能深度思考。第二,实时翻译几乎无延迟,官方演示的同传效果非常惊艳。第三,也是最关键的,语音能力直接架构在大模型之上,不是以前那种小模型加语音的拼接方案了。
听起来确实强。但问题是,国内开发者想用OpenAI的东西,访问限制和合规性始终是绕不过去的坎。
没错,这也是国产替代方案存在的核心意义。所以我们重点聊聊Step Audio 2.5。阶跃星辰这家公司是2023年成立的,创始人姜大昕之前是微软亚洲研究院的副院长,背后有腾讯、阿里投资,算是国内大模型赛道的头部创业公司了。
那Step Audio 2.5这次主打的升级是什么?
最核心的一点,跟OpenAI思路一样——把实时语音模型直接架构在大模型之上。你看以前的语音模型,背后通常就是个几十亿参数的小模型,能说话但不能深度思考。这就好比你请了一个口才很好但知识储备不够的客服,简单问题没问题,复杂的就答不上来了。Step Audio 2.5通过一些推理加速技术,让大参数量模型也能在实时场景下保持可接受的延迟,这是技术上的关键突破。
实测下来效果怎么样?
我觉得有几个地方确实不错。比如角色扮演,你可以让它扮演张飞、孙悟空这些角色,它不光能用对应身份说话,语音语调和语气特征也能模拟出来。还有一个闺蜜聊天的测试场景特别有意思,那个语气中的停顿、叹词、情感起伏处理得相当到位,比豆包的效果要好一些。
你看这个就很关键。语音AI如果听起来像个机器人在念稿,那用户体验就大打折扣了。
对,Step Audio 2.5在语音细节上确实下了功夫。对话中自然插入笑声、停顿、语气词,颗粒度很细,接近真人对话的自然度。这一点在国产语音模型里算比较突出的。
那跟GPT Realtime 2正面比呢?差距在哪?
其实各有优势。英文场景下,GPT的响应速度和自然度仍然领先,这个没什么悬念。但在中文场景下,Step Audio 2.5确实更胜一筹。测试中有个很有意思的细节——GPT Realtime 2在中文对话里出现了听不懂指令的情况,让它切换女声,它完全没反应,继续按自己的节奏输出。
哈,这就有点尴尬了。
是啊。简单说就是,中文理解Step Audio 2.5明显占优,英文自然度GPT领先,推理能力GPT更强一些,角色扮演两者差不多,但国内可用性这一项,Step Audio 2.5是碾压级的优势。
不过我听说Step Audio 2.5首发的那个小月桌面端体验不太好?
嗯,这是个比较大的问题。测试中发现安装后桌面上的推广框经常卡死,严重影响使用,最后不得不卸载。从社群活跃度来看,回流用户也不多。这其实暴露了一个很常见的坑——模型能力强不等于产品体验好。你基础体验都保障不了,再强的模型也没法转化成用户价值。
这个确实是国内AI产品的通病,技术上很用力,但产品打磨不够。那对开发者来说,API这块怎么样?
好消息是阶跃星辰发布模型的同时就开放了API文档,这点比很多国产模型强。定价方面,输入是10元每百万tokens,如果缓存命中的话只要2元。这里解释一下,比如你做客服机器人,系统提示词是固定的,每次调用都一样,那这部分就可以走缓存,只收五分之一的价格。
那整体成本高不高?
说实话不算便宜。我算了一下,一分钟语音输入大概花一两分钱,听起来不多,但如果是智能客服这种高并发场景,每天十万通电话,月度成本可能到数万元。比传统ASR加TTS方案贵三到五倍。不过考虑到端到端模型带来的理解能力和表达自然度的提升,这个溢价也不是不能接受。
所以开发者选型的时候得看场景。
对。如果是重度中文语音交互,比如客服、AI陪伴、教育类应用,Step Audio 2.5是目前国内比较靠谱的选择。如果是轻量级场景,对延迟和情感表达要求不高,传统的TTS加ASR加LLM组合方案成本更低。如果是多语言或者英文为主的场景,合规允许的话,GPT Realtime 2还是更好的选择。
最后总结一下的话,Step Audio 2.5你怎么评价?
有亮点但仍需打磨。语音自然度、角色扮演、中文理解这些方面确实不错,部分场景优于豆包等竞品。但产品稳定性和定价策略还有明显的提升空间。整体来看,国产实时语音AI正在从能用走向好用,追赶的速度比很多人预期的要快,但跟OpenAI的差距客观存在,尤其是在推理能力和英文场景上。
嗯,实时语音AI这场仗才刚开始打。2025年下半年各家肯定还会有大动作,到时候咱们再来聊聊新的进展。