播客频道 | AI声工坊+音工坊：一人完成广播剧级有声书制作全流程

今天聊一个让我挺震撼的东西。你知道做一本有声书有多麻烦吗？一本30万字的小说，专业配音演员光录干音就要40到60个小时，后期团队剪辑配乐混音又是同等甚至更多的时间。整个团队从策划编辑、配音演员到音频工程师、质检人员，制作周期动辄几个月，成本几千到几万。所以市面上大量网络小说根本没法做有声化，不是不想做，是做不过来。对，这就是典型的产能瓶颈。其实有声书市场需求一直很大，但供给侧严重跟不上。你想想，光国内网文平台上的小说数量就是天文数字，能被有声化的可能连百分之一都不到。然后最近AI声工坊和AI音工坊工作室版更新了，号称一个人就能完成过去整个团队的工作量。这不是一个简单的文本转语音工具，而是从文本分析、角色识别、音色匹配，一直到情绪控制、批量合成、后期混音，全流程打通的生产系统。嗯，我觉得这个定位特别关键。市面上TTS工具很多，但大多数就是把文字念出来，听起来像语音助手在读课文。有声书的要求完全不一样——它需要长时间稳定输出，多角色无缝切换，情绪起伏还得自然流畅。这就是为什么需要专门面向有声书场景的工具。那我们先拆解一下AI声工坊这一块，它主要解决的是'谁来读'的问题。具体操作流程是怎样的？其实被压缩得很简洁了，大概六步。你先准备好小说的TXT文件，章节标题规范一点，然后新建项目，导入文本，程序会自动按章节标题拆分。接下来系统会智能分析角色特征，自动给每个角色匹配合适的AI音色。不过旁白角色因为占比最大、最重要，建议手动指定。然后配置情绪控制模式，最后点生成，批量转换导出就行了。等一下，你提到情绪控制模式，这个我特别想深入聊聊。它有两种模式对吧？对，这是个很有意思的设计。第一种叫'自然语言控制'，就是通过文本描述来引导情感，比如文本里写了'悲伤地说'、'愤怒地喊'，模型就能生成对应情感的语音。这背后依赖的是大语言模型对情感语义的深层理解。第二种叫'参考音色情绪模式'，你给一段参考音频作为风格锚点，模型就模仿那段音频的语速、语调和情感特征来合成。所以角色对话用第一种，旁白用第二种？你看，这就是最佳实践。角色对话情绪变化多，用自然语言控制更灵活。但它也有个问题，就是情绪波动可能不太稳定，有时候你想要'微微叹息'，它给你来个'嚎啕大哭'。旁白呢，需要长时间保持一致的风格，参考音色模式就更合适，输出稳定。不过它的表现力受限于你给的那段参考样本的质量。所以说，情绪模式的精调其实是做精品有声书的关键，需要不断摸索。好，配音搞定了，接下来就是AI音工坊的部分了。这个解决的是'怎么做好听'的问题。我觉得这块更让我兴奋，因为它用了AI Agent架构。对，这是整个系统最大的亮点。它内置了一个AI后期导演系统，分两层。上面是'总导演Agent'，负责分析整本书的题材和情绪基调，制定整体后期方案——就像人类导演审读完剧本之后说'这部作品整体要暗黑压抑，节奏前慢后快'。下面是'执行导演Agent'，负责在具体场景中自动匹配BGM、环境音和各种音效——就像音效师在每个段落里选择和编排具体的声音元素。这种层级化的多Agent协作，跟传统的单次调用大模型有什么本质区别？本质区别在于它能处理复杂的上下文依赖关系。你想，如果只是对每段文本孤立处理，前面刚打完一场激烈的战斗，后面突然切到一段温柔的BGM，听起来就会很割裂。但Agent架构下，总导演已经规划好了整体节奏走向，执行导演在处理每个场景时都知道前后文是什么，所以音效编排能保持逻辑连贯。这对没有后期经验的人来说简直是救命的。它的音效库体系也挺专业的，分了五类——BGM、短音效、环境音效、转场音效和范围音效。这其实就是专业广播剧和影视后期的标准音频分层逻辑。BGM奠定情绪基调，短音效负责动作反馈比如门响脚步声，环境音效构建空间感比如雨声、市集喧嚣，转场音效处理场景衔接避免突兀跳切，范围音效给特定段落提供持续性氛围，比如战场远处的厮杀声。传统制作中音效师要从庞大素材库里逐一挑选、裁剪、对位时间轴，现在Agent把这个过程自动化了。不过有一点很重要——音效库的质量直接决定成品品质，系统的上限取决于你自己的素材积累。嗯，工具再强也需要好的素材喂进去。那实际效果怎么样？我看到它展示了好几个不同题材的案例。覆盖面确实广，玄幻修仙、青春校园、儿童故事、悬疑刑侦、历史人文都有。我印象比较深的是悬疑类审讯室那个场景，压抑氛围营造得很到位，角色对话张力十足。还有青春校园的毕业离别，情感渲染很细腻。这些案例也验证了Agent架构的泛化能力——同一套系统不用人工切换模式，就能自适应地给不同题材匹配完全不同的后期风格。费用方面呢？分工作室版和个人版。工作室版内置了大模型渠道，功能完整，只收很小额的调用费用，基本可以忽略不计。个人版不内置大模型，需要自己对接API，但它兼容OpenAI类接口，意味着你可以接OpenAI、Claude、DeepSeek、通义这些，灵活性很高。不过有个版权提醒——内置的测试音色没有商用版权，要商用必须自己导入有授权的音色资源。最后我想说一个感受。这套工具链真正把有声书制作的门槛从'需要一个专业团队'降到了'一个有热情的个人'。当然，从'能听'到'好听'之间还是有距离的，情绪精调、音效积累、音色选择这些细节功夫省不了。但至少创作者可以把精力放在内容本身，而不是被技术流程困住。其实我觉得更深远的影响是供给侧的变革。以前大量优秀的网文因为产能问题没法有声化，现在可能会催生一批新型的个人有声书创作者——不需要录音棚、不需要组团队，只要对内容有热情、对声音有审美就够了。这个行业的内容供给量可能会迎来一次结构性的爆发。

AI声工坊+音工坊：一人完成广播剧级有声书制作全流程

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报