谷歌Gemini 3.1 Flash Live正式发布:支持90种语言的实时语音AI来了

科技1个月前发布 leso
28 0 0

谷歌终于把语音AI的”延迟感”给干掉了。

3月27日,Google正式推出Gemini 3.1 Flash Live,这是一款专为实时对话优化的语音模型。它最吸引人的地方不是参数有多大,而是响应速度和多语言能力的质变——支持90种以上语言,覆盖200多个国家和地区,用户可以用最熟悉的母语跟AI进行自然流畅的实时对话。

这款模型的核心亮点在于”听得懂人话”。它能精准识别音高、语速、语气停顿等声学细节,动态感知用户情绪(比如你是不是有点沮丧或困惑),然后调整回应方式。在ComplexFuncBench Audio基准测试中,它以90.8%的准确率领先,擅长处理多步骤函数调用;在真实音频环境评测中也排名第一。所有生成音频都嵌入了SynthID隐形水印,可追溯AI生成内容。开发者可通过Google AI Studio接入API,普通用户也能在Gemini Live应用中直接体验。

当语音AI能做到真正的”零延迟”对话,你觉得打电话找客服还有必要吗?

© 版权声明

相关文章

暂无评论

none
暂无评论...