美团开源LongCat-Next:把图像语音都变成”文字”的原生多模态大模型来了

科技1个月前发布 leso
27 0 0

美团做外卖的,居然搞出了一个让图像和语音都能变成”文字”的AI模型。

3月27日,美团发布并全面开源原生多模态大模型LongCat-Next,打破了当前大模型以”语言为中心”的传统架构。该模型将图像、语音与文本统一映射为同源的离散Token,让视觉和语音不再是”外挂”模块,而是与文本同等地位的原生模态。核心组件dNaViT视觉分词器相当于视觉领域的”词典”,能把图像拆解成离散的视觉Token,支持任意分辨率输入,实现28倍像素压缩。

在性能上,LongCat-Next在视觉理解、图像生成、数学推理等任务中表现亮眼,OmniDocBench超越Qwen3-VL等专用模型,GenEval图像生成评分达84.44。更难得的是,美团已将论文、代码、模型全部开源,包括GitHub仓库和HuggingFace模型页。这种”外卖平台搞AI基础研究”的跨界,某种程度上也反映了国产大模型竞争已进入深水区。

当送外卖的公司开始卷AI大模型,你觉得下一个跨界搞AI的会是谁?

© 版权声明

相关文章

暂无评论

none
暂无评论...