字
字节笔记本
2026年5月3日
TranslateGemma - Google 开源翻译模型家族
API中转
¥120
TranslateGemma 是基于 Gemma 3 构建的新一代开源翻译模型家族,提供 4B、12B 和 27B 三种参数规模。它支持 55 种语言,代表了开放翻译领域的重大进步。
来源: Google 博客 作者: David Vilar, Kat Black 发布时间: 2026年1月15日 Hugging Face: google/translategemma-12b-it 技术报告: arXiv:2601.09012
核心特性
性能突破
- 12B 模型在 WMT24++ 基准测试中优于 27B Gemma 3 基线
- 使用不到一半的参数实现高保真翻译质量
- 4B 模型媲美更大的 12B 基线模型
语言覆盖
- 55 种核心语言:经过严格训练和评估
- 近 500 种额外语言对:为研究和进一步适配提供强大基础
- 涵盖高资源、中等资源和低资源语言
多模态能力
- 保留了 Gemma 3 的强大多模态能力
- 在 Vistra 图像翻译基准测试中表现优异
- 即使没有特定的多模态微调,文本翻译的改进也积极影响图像内文本翻译
技术架构
从 Gemini 知识蒸馏
两阶段微调过程:
1. 监督微调(SFT)
在多样化的并行数据集上微调基础 Gemma 3 模型:
- 人工翻译文本
- 最先进的 Gemini 模型生成的高质量合成翻译
- 实现广泛的语言覆盖和高保真度
2. 强化学习(RL)
使用奖励模型集成进一步优化翻译质量:
- MetricX-QE
- AutoMQM
- 引导模型生成更准确、更自然的翻译
模型规格与部署
三种规模
| 模型 | 参数量 | 部署场景 |
|---|---|---|
| 4B | 40 亿 | 移动设备和边缘部署 |
| 12B | 120 亿 | 消费级笔记本电脑 |
| 27B | 270 亿 | 单个 H100 GPU 或云端 TPU |
性能基准
WMT24++(55 种语言)
| 模型 | MetricX↓ | Comet↑ |
|---|---|---|
| 4B | 5.32 | 81.6 |
| 12B | 3.60 | 83.5 |
| 27B | 3.09 | 84.4 |
WMT25(10 种语言)
| 模型 | MQM↓ |
|---|---|
| 4B | 2.57 |
| 12B | 7.94 |
| 27B | 5.86 |
使用方法
获取方式
- 技术报告: arXiv:2601.09012
- Kaggle: Kaggle Models
- Hugging Face: HF Collection
- Vertex AI: Model Garden
- Gemma Cookbook: Colab 笔记本
使用示例
python
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/translategemma-12b-it",
device="cuda",
dtype=torch.bfloat16
)
# 文本翻译
messages = [{
"role": "user",
"content": [{
"type": "text",
"source_lang_code": "cs", # 捷克语
"target_lang_code": "de-DE", # 德语
"text": "V nejhorším případě i k prasknutí čočky."
}]
}]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])输入输出格式
输入
- 文本字符串:要翻译的文本
- 图像:归一化到 896x896 分辨率,编码为 256 个 token
- 总上下文:2K tokens
输出
- 翻译为目标语言的文本
语言代码格式
支持两种格式:
- ISO 639-1 Alpha-2:如
en、zh - 地区化变体:如
en_US、en-GB、zh_CN
使用限制
预期用途
- 专门用于文本到文本或图像到文本的翻译
- 不对其他能力做出声明
局限性
- 训练数据:质量和多样性影响模型能力
- 上下文和任务复杂性:开放或高度复杂的任务可能具有挑战性
- 语言歧义和细微差别:可能难以掌握细微差别、反语或比喻语言
- 事实准确性:可能生成不正确或过时的陈述
- 常识推理:在某些情况下可能缺乏应用常识推理的能力
伦理与安全
识别的风险与缓解
| 风险 | 缓解措施 |
|---|---|
| 偏见延续 | 持续监控、去偏见技术 |
| 有害内容生成 | 内容安全机制 |
| 恶意滥用 | 技术限制、用户教育 |
| 隐私侵犯 | 隐私保护技术 |
收益
- 高性能翻译模型实现
- 在相同规模的开放模型中提供卓越性能
- 效率突破:更高吞吐量和更低延迟
- 为研究和开发提供强大工具
相关资源
- 技术报告: TranslateGemma Technical Report
- Gemma 3 技术报告: arXiv:2503.19786
- 负责任 AI 工具包: ai.google.dev/responsible
- 使用条款: ai.google.dev/gemma/terms
分享: