Gemini 3.5 Live Translate

Name: Gemini 3.5 Live Translate
Price: 3.5 USD
Availability: InStock
Author: Google Deep Mind

翻译大模型Gemini 3.5

发布时间: 2026-06-09知识截止: 2025-01-01108

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

128K

中文支持

支持

推理能力

Gemini 3.5 Live Translate 是 Google DeepMind 于 2026 年 6 月 9 日发布的实时语音翻译专属模型（API ID：gemini-3.5-live-translate-preview），采用端到端音频到音频架构，支持 70+ 语言自动检测与双向翻译，上下文窗口 128K tokens，输出最高 64K tokens。模型保留说话者语调与音色，内嵌 SynthID 水印，已上线 Google Translate、Gemini API 和 Google AI Studio，定价约 $3.50/$21.00 每百万 audio input/output tokens。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Gemini 3.5 Live Translate

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

128K tokens

最大输出长度

64K tokens

模型类型

翻译大模型

输入/输出模态

音频 → 文本、音频

发布时间

2026-06-09

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

2025-01-01

Gemini 3.5 Live Translate

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://translate.google.com

Gemini 3.5 Live Translate

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

暂无介绍博客

Gemini 3.5 Live Translate

API接口信息

接口速度

5/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
音频	-	$0.0053/ 1M	$0.032/ 1M

Gemini 3.5 Live Translate

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Gemini 3.5 Live Translate

发布机构

Google Deep Mind

查看发布机构详情

Gemini 3.5 Live Translate

模型解读

模型概述

Gemini 3.5 Live Translate 是 Google DeepMind 于 2026 年 6 月 9 日正式发布的实时语音翻译专属模型，API 标识符为 gemini-3.5-live-translate-preview。模型采用端到端音频到音频（audio-to-audio）架构，在不经过“识别 → 翻译文本 → 语音合成”串联管道的情况下，直接将输入语音实时转换为目标语言语音，具备极低延迟与自然音色保留能力。

Gemini 3.5 Live Translate 已同步上线 Google Translate（iOS/Android）、Gemini Live API（公开预览）、Google AI Studio（公开预览），以及面向 Google Workspace 企业客户的 Google Meet（私有预览）。

核心能力

70+ 语言实时翻译：无需手动设置语言，模型在流式输入中自动检测语言并翻译为目标语言，支持超过 70 种语言之间的 2000+ 语言组合。
音色保留：输出语音保留说话者的语调（intonation）、语速（pacing）与音高（pitch），实现更自然的翻译体验。
连续流式翻译：不等待发言结束即开始翻译，延迟通常仅落后说话者数秒，适合会议、跨语言对话等实时场景。
SynthID 水印：所有生成音频均嵌入 SynthID 不可感知水印，满足 AI 内容溯源要求。
可选文字转录：除音频输出外，可同步输出输入语音与翻译结果的文字转录（transcript），便于记录和字幕生成。

技术规格

Gemini 3.5 Live Translate 基于 Gemini 3 Pro 架构，专为实时翻译场景做了针对性优化：

输入格式：原始 16-bit PCM 音频，16kHz，单声道，小端字节序（100ms 音频块）
输出格式：原始 16-bit PCM 音频，24kHz，单声道，小端字节序；可选文字转录
上下文窗口：输入最高 128K tokens（131,072），输出最高 64K tokens（65,536）
知识截止日期：2025 年 1 月
计费单位：25 tokens/秒音频

不支持的功能：Batch API、上下文缓存（context caching）、函数调用（function calling）、代码执行、搜索增强（Search Grounding）、结构化输出、思考模式（thinking）等。

API 定价

通过 Gemini Developer API 调用 gemini-3.5-live-translate-preview 的定价：

计费项	免费档	付费档（每百万 tokens）	等效每分钟价格
音频输入	免费	$3.50	约 $0.0053/分钟
音频输出	免费	$21.00	约 $0.0315/分钟

计费基于输入与输出音频 token 总量，换算比率为 25 tokens/秒，综合输入+输出约 $0.0368/分钟。

访问方式

Google Translate：translate.google.com（iOS/Android App）
Gemini API：开发者文档
Google AI Studio：aistudio.google.com
Google Meet：企业 Workspace 客户私有预览

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送