点名外卖公司做语音AI？美团开源LongCat-AudioDiT：音色克隆相似度刷新SOTA

说到语音克隆，大家可能会想到微软、OpenAI或者科大讯飞，没想到美团也入局了——而且一出手就开源了，还直接刷新了行业最高分。

美团LongCat团队今天发布并开源了文本转语音模型LongCat-AudioDiT，提供1B和3.5B两个参数版本。这个模型最大的技术亮点是彻底抛弃了传统TTS系统依赖的梅尔频谱”中间层”，直接在波形潜空间里进行扩散生成，底层架构是Wav-VAE加上扩散Transformer（DiT）的组合。这个思路的好处很实在：省掉中间表征就省掉了误差累积，生成出来的声音更贴近真实。

性能数据上，3.5B版本在Seed-ZH测试集上说话人相似度达到0.818，在更难的Seed-Hard难句集上也有0.797，超过了Seed-TTS、CosyVoice3.5和MiniMax-Speech等主流竞品。英文词错率（WER）仅1.50%，中文难句字错率6.04%。全部代码、论文和模型权重都已在GitHub（meituan-longcat/LongCat-AudioDiT）和HuggingFace上开源。

美团做AI这件事其实早就不是新鲜事了，只不过大家更熟悉它的外卖业务——这次在语音生成赛道直接拿出SOTA成绩开源，算是给行业开了个好头，剩下的就看有没有团队能跑出更好的分数了。