谷歌发推出Gemini 3.1 Flash Live实时语音模型

2.2K 00

文章目录

昨日Google正式推出了Gemini 3.1 Flash Live预览版，这是一款专门针对低延迟实时对话和语音优先应用场景优化的音频到音频模型。该模型的发布，标志着谷歌在将大型语言模型的强大能力与实时语音交互深度融合方面，迈出了关键一步。

核心定位：为“实时”而生

根据谷歌官方开发者文档，Gemini 3.1 Flash Live的核心使命非常明确：优化实时对话体验。与处理静态文本或文件的传统模型不同，它被设计为一个“低延迟音频到音频模型”，这意味着它能够直接处理连续的音频流输入，并近乎实时地生成包含语音（音频）和文本在内的多模态响应。

这一定位使其天然适用于需要即时、自然交互的场景，例如：

从官方技术文档中，我们可以梳理出该模型的几个关键特性：

多模态输入/输出：
- 输入：支持文本、图片、音频、视频。
- 输出：支持生成文本和音频。这是实现实时语音对话的基础。
优化的“思考”机制：
模型引入了 thinkingLevel 配置（可选minimal, low, medium, high），取代了前代模型的thinkingBudget概念。默认设置为minimal，旨在为最低延迟进行优化。开发者可以根据应用对响应速度与思考深度的需求进行权衡调整。
支持核心AI功能：
- 函数调用：支持同步函数调用，使模型能够触发外部工具或API来获取信息、执行操作。
- 搜索增强：可以接入谷歌搜索，用实时信息增强回答的准确性和时效性。
- 知识截止日期：模型的知识更新至2025年1月。
性能参数：
- 输入Token限制为131,072，输出Token限制为65,536，为处理较长的对话上下文提供了充足空间。

此次推出的3.1 Flash Live是用于取代之前的gemini-2.5-flash-native-audio-preview-12-2025模型。谷歌在文档中明确列出了开发者迁移时需要注意的几项重要变更，这些变更也反映了新模型的演进方向：

事件处理逻辑更新：服务器返回的单个事件现在可以同时包含多个内容部分（如音频块和对应文本）。开发者需要更新代码以正确处理这些复合内容，避免信息遗漏。
交互协议细化：在实时对话过程中，客户端需要使用专门的send_realtime_input方法发送文本更新，而非通用的内容发送方法，这使得数据流管理更清晰。
轮次覆盖范围调整：默认设置下，模型的一次响应轮次将包含检测到的所有音频活动和视频帧。谷歌建议，如果应用持续发送视频流，应优化为仅在检测到音频活动时发送视频帧，以提升效率并控制成本。
功能取舍：为了专注于核心的实时对话能力，3.1 Flash Live预览版暂时移除了对“主动音频”（模型主动发起对话）和“共情对话”（更复杂的情感交互模拟）功能的支持。同时，异步函数调用也暂未提供，目前所有工具调用均为同步模式。