Dia开源项目一天5000星:两本科生3个月复刻NotebookLM播客功能

两名本科生自学三个月开发出对标谷歌NotebookLM的开源AI对话语音生成项目Dia
开源项目Dia由两名本科生组成的Nari AI团队开发,仅用三个月便完成。该项目以1.6B轻量参数实现近乎实时的双人对话音频生成,能模拟笑声、咳嗽等非语言细节,效果被业内誉为最强AI对话生成。团队通过自学TPU技术和申请谷歌免费算力完成训练,上线不到一天GitHub星标破5000,但目前暂不支持中文。
现象级开源项目Dia横空出世
最近,一个名为Dia的AI语音生成项目在开源社区引爆了热度——上线不到一天,GitHub星标数就突破5000。这个项目对标的正是谷歌的现象级产品NotebookLM的播客对话功能,而更令人惊叹的是,它的背后团队仅有两名本科生,自学三个月便完成了开发。
Dia由Nari AI团队打造,核心能力是根据输入的文本自动生成两人对话音频。与普通TTS(文本转语音)不同,Dia生成的对话声情并茂,不仅语气自然流畅,还能模拟咳嗽声、笑声等非语言细节,真实感极强。
技术背景:TTS与对话生成的代差 传统TTS(Text-to-Speech)技术已有数十年历史,从早期的拼接合成、参数合成,到近年基于深度学习的端到端模型(如Tacotron、VITS),自然度持续提升。但传统TTS的根本局限在于:它处理的是"朗读"而非"对话"——缺乏情绪起伏、轮次切换、副语言信号(笑声、停顿、叹气)等真实对话要素。Dia所代表的新一代对话生成模型,本质上是在语音合成之上叠加了对话动态建模,需要同时理解语义情感、说话人角色和场景上下文,技术复杂度远超传统TTS,这也是其演示效果令业内人士震惊的根本原因。
网上流传最广的演示片段是两人发现火灾后惊呼逃跑的对话,业内人士听完直呼"这是迄今为止表现最强的AI对话生成"。

技术亮点:1.6B参数实现近乎实时的语音生成
Dia的模型参数量仅为1.6B(16亿),在当前动辄数十亿甚至上百亿参数的大模型时代,这个体量可以说相当轻量。但正是这样一个"小模型",却实现了接近实时的音频生成速度,在效果和效率之间取得了出色的平衡。
深度解析:1.6B参数的轻量化意义 参数量是衡量神经网络规模的核心指标,代表模型中可训练的权重数量。当前主流大语言模型如GPT-4估计超过1万亿参数,LLaMA 3系列也有70B级别版本。1.6B在今天的标准下属于"小模型"范畴,其优势在于推理速度快、显存占用低、部署成本小。Dia的成功印证了"任务专一化"的价值:当模型被精心设计并专注于单一垂直场景时,参数效率可以极大提升。这与近年来"小而专"模型(如微软Phi系列、苹果OpenELM)崛起的趋势高度吻合——在特定场景下,一个经过精心训练的小模型完全可以在效果上与体量大数十倍的通用模型抗衡,对算力受限的开发者和企业具有重要的参考价值。
在实际使用上,Dia已经可以在Hugging Face平台上在线体验。Hugging Face是目前全球最重要的AI模型开源托管平台,被誉为"AI领域的GitHub",平台提供模型仓库、数据集托管、在线推理等一站式服务,用户无需本地部署即可通过浏览器直接调用模型。用户只需输入文本内容,点击生成按钮,模型就会随机分配音色,并根据文字内容自动调整语气和情感表达。无论是播客配音、有声读物还是对话内容创作,都可以在几分钟内轻松搞定。

不过目前Dia还存在一个明显的局限——暂不支持中文。对于中文用户来说,这意味着短期内还无法直接用它来生成中文播客对话。但考虑到项目已经开源,社区贡献中文支持只是时间问题。
两人团队的逆袭之路:从零到GitHub 5000星
Dia背后的故事同样值得关注。整个团队只有两个人,一位全职、一位兼职,而且两人都不是专业的AI研究人员,均为本科在读生。

去年,谷歌NotebookLM的播客生成功能爆火出圈,两人深受启发,萌生了打造一个更强语音模型的想法。谷歌NotebookLM的"Audio Overview"(音频概览)功能允许用户上传文档后自动生成两位AI主持人进行深度讨论的播客音频,两位虚拟主持人会相互打断、表达惊讶、提出追问,完全打破了人们对AI语音"机械感"的固有印象。这一功能的爆火不仅验证了"AI生成播客"这一应用场景的巨大市场需求,也激发了大量开发者尝试复现乃至超越其效果——Dia正是在这一背景下诞生的直接产物。
然而,作为非科班出身的学生,他们面临的第一个挑战就是技术储备不足。
他们的解决方案很直接——自学。两人开始系统学习TPU(张量处理单元)相关教程,从零掌握大规模模型训练的核心技术。

什么是TPU与谷歌TRC计划? TPU(Tensor Processing Unit,张量处理单元)是谷歌专为机器学习工作负载设计的定制化芯片,相比通用GPU在矩阵运算上具有显著的速度和能效优势,是训练大规模深度学习模型的核心算力基础设施。谷歌TRC(TPU Research Cloud)计划是谷歌面向学术研究者和开源开发者提供的免费TPU算力申请项目,旨在降低AI研究的算力门槛。申请者需提交研究计划,审核通过后可获得一定时限内的免费TPU使用权。这一计划已孵化出多个重要开源项目,是谷歌推动AI生态建设的重要举措。
资金方面同样捉襟见肘。没有投资人,没有企业背书,他们通过申请谷歌研究计划(Google TRC Program)获得了免费的TPU算力资源来训练模型——这一渠道帮助他们绕过了原本需要数万美元的云计算费用。就这样,凭借开源社区的资源和自身的执行力,短短三个月便打造出了Dia。
未来规划与行业启示
据团队透露,Dia目前还只是一个模型和演示阶段,未来他们计划将其打造成一款完整的应用产品,支持生成更丰富的对话内容和混音效果。
从行业角度来看,Dia的出现至少带来了三个层面的启示:
**第一,AI语音生成正在进入"平民化
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。