
昨日Google正式推出了Gemini 3.1 Flash Live预览版,这是一款专门针对低延迟实时对话和语音优先应用场景优化的音频到音频模型。该模型的发布,标志着谷歌在将大型语言模型的强大能力与实时语音交互深度融合方面,迈出了关键一步。
核心定位:为“实时”而生
根据谷歌官方开发者文档,Gemini 3.1 Flash Live的核心使命非常明确:优化实时对话体验。与处理静态文本或文件的传统模型不同,它被设计为一个“低延迟音频到音频模型”,这意味着它能够直接处理连续的音频流输入,并近乎实时地生成包含语音(音频)和文本在内的多模态响应。
这一定位使其天然适用于需要即时、自然交互的场景,例如:
- 实时语音助手与客服:提供更自然、连贯、富有情感和细微差别的对话体验。
- 语音优先的AI应用:如实时翻译、会议转录与摘要、交互式语音游戏、语音导览等。
- 多模态感知交互:在接收音频的同时,也能处理并理解用户实时上传的图片或视频流,实现更丰富的上下文感知。
关键特性与技术规格
从官方技术文档中,我们可以梳理出该模型的几个关键特性:
- 多模态输入/输出:
- 输入:支持文本、图片、音频、视频。
- 输出:支持生成文本和音频。这是实现实时语音对话的基础。
- 优化的“思考”机制:
模型引入了thinkingLevel配置(可选minimal,low,medium,high),取代了前代模型的thinkingBudget概念。默认设置为minimal,旨在为最低延迟进行优化。开发者可以根据应用对响应速度与思考深度的需求进行权衡调整。 - 支持核心AI功能:
- 函数调用:支持同步函数调用,使模型能够触发外部工具或API来获取信息、执行操作。
- 搜索增强:可以接入谷歌搜索,用实时信息增强回答的准确性和时效性。
- 知识截止日期:模型的知识更新至2025年1月。
- 性能参数:
- 输入Token限制为131,072,输出Token限制为65,536,为处理较长的对话上下文提供了充足空间。
与前代模型的显著区别
此次推出的3.1 Flash Live是用于取代之前的gemini-2.5-flash-native-audio-preview-12-2025模型。谷歌在文档中明确列出了开发者迁移时需要注意的几项重要变更,这些变更也反映了新模型的演进方向:
- 事件处理逻辑更新:服务器返回的单个事件现在可以同时包含多个内容部分(如音频块和对应文本)。开发者需要更新代码以正确处理这些复合内容,避免信息遗漏。
- 交互协议细化:在实时对话过程中,客户端需要使用专门的
send_realtime_input方法发送文本更新,而非通用的内容发送方法,这使得数据流管理更清晰。 - 轮次覆盖范围调整:默认设置下,模型的一次响应轮次将包含检测到的所有音频活动和视频帧。谷歌建议,如果应用持续发送视频流,应优化为仅在检测到音频活动时发送视频帧,以提升效率并控制成本。
- 功能取舍:为了专注于核心的实时对话能力,3.1 Flash Live预览版暂时移除了对“主动音频”(模型主动发起对话)和“共情对话”(更复杂的情感交互模拟)功能的支持。同时,异步函数调用也暂未提供,目前所有工具调用均为同步模式。
可用性与展望
目前,开发者可以通过Google AI Studio直接体验Gemini 3.1 Flash Live预览版,并通过Gemini API进行集成开发。模型状态为“预览版”,最后更新日期标注为2026年3月,这通常意味着谷歌会在此期间持续收集反馈并进行优化。
结语
Gemini 3.1 Flash Live的推出,是谷歌在激烈竞争的AI语音赛道投下的一枚重要棋子。它没有追求面面俱到,而是明确聚焦于“低延迟实时对话”这一核心战场,通过优化架构、调整交互协议、提供更精细的延迟控制,旨在为开发者构建下一代语音交互应用提供更专业、高效的底层模型支持。
其与前代模型的差异,特别是对某些高级功能的暂时性取舍,也反映出谷歌在平衡模型能力、性能、成本与开发者易用性方面的现实考量。随着预览的进行和技术的迭代,未来它能否在实时性、智能性和自然度上树立新的标杆,值得业界持续关注。
