美团开源LongCat-Next：把图像语音都变成”文字”的原生多模态大模型来了

美团做外卖的，居然搞出了一个让图像和语音都能变成”文字”的AI模型。

3月27日，美团发布并全面开源原生多模态大模型LongCat-Next，打破了当前大模型以”语言为中心”的传统架构。该模型将图像、语音与文本统一映射为同源的离散Token，让视觉和语音不再是”外挂”模块，而是与文本同等地位的原生模态。核心组件dNaViT视觉分词器相当于视觉领域的”词典”，能把图像拆解成离散的视觉Token，支持任意分辨率输入，实现28倍像素压缩。

在性能上，LongCat-Next在视觉理解、图像生成、数学推理等任务中表现亮眼，OmniDocBench超越Qwen3-VL等专用模型，GenEval图像生成评分达84.44。更难得的是，美团已将论文、代码、模型全部开源，包括GitHub仓库和HuggingFace模型页。这种”外卖平台搞AI基础研究”的跨界，某种程度上也反映了国产大模型竞争已进入深水区。

当送外卖的公司开始卷AI大模型，你觉得下一个跨界搞AI的会是谁？