点名外卖公司做语音AI?美团开源LongCat-AudioDiT:音色克隆相似度刷新SOTA

科技1个月前发布 leso
24 0 0

说到语音克隆,大家可能会想到微软、OpenAI或者科大讯飞,没想到美团也入局了——而且一出手就开源了,还直接刷新了行业最高分。

美团LongCat团队今天发布并开源了文本转语音模型LongCat-AudioDiT,提供1B和3.5B两个参数版本。这个模型最大的技术亮点是彻底抛弃了传统TTS系统依赖的梅尔频谱”中间层”,直接在波形潜空间里进行扩散生成,底层架构是Wav-VAE加上扩散Transformer(DiT)的组合。这个思路的好处很实在:省掉中间表征就省掉了误差累积,生成出来的声音更贴近真实。

性能数据上,3.5B版本在Seed-ZH测试集上说话人相似度达到0.818,在更难的Seed-Hard难句集上也有0.797,超过了Seed-TTS、CosyVoice3.5和MiniMax-Speech等主流竞品。英文词错率(WER)仅1.50%,中文难句字错率6.04%。全部代码、论文和模型权重都已在GitHub(meituan-longcat/LongCat-AudioDiT)和HuggingFace上开源。

美团做AI这件事其实早就不是新鲜事了,只不过大家更熟悉它的外卖业务——这次在语音生成赛道直接拿出SOTA成绩开源,算是给行业开了个好头,剩下的就看有没有团队能跑出更好的分数了。

© 版权声明

相关文章

暂无评论

none
暂无评论...