说到语音克隆,大家可能会想到微软、OpenAI或者科大讯飞,没想到美团也入局了——而且一出手就开源了,还直接刷新了行业最高分。
美团LongCat团队今天发布并开源了文本转语音模型LongCat-AudioDiT,提供1B和3.5B两个参数版本。这个模型最大的技术亮点是彻底抛弃了传统TTS系统依赖的梅尔频谱”中间层”,直接在波形潜空间里进行扩散生成,底层架构是Wav-VAE加上扩散Transformer(DiT)的组合。这个思路的好处很实在:省掉中间表征就省掉了误差累积,生成出来的声音更贴近真实。
性能数据上,3.5B版本在Seed-ZH测试集上说话人相似度达到0.818,在更难的Seed-Hard难句集上也有0.797,超过了Seed-TTS、CosyVoice3.5和MiniMax-Speech等主流竞品。英文词错率(WER)仅1.50%,中文难句字错率6.04%。全部代码、论文和模型权重都已在GitHub(meituan-longcat/LongCat-AudioDiT)和HuggingFace上开源。
美团做AI这件事其实早就不是新鲜事了,只不过大家更熟悉它的外卖业务——这次在语音生成赛道直接拿出SOTA成绩开源,算是给行业开了个好头,剩下的就看有没有团队能跑出更好的分数了。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...