TranslateGemma - Google 开源翻译模型家族

TranslateGemma 是基于 Gemma 3 构建的新一代开源翻译模型家族，提供 4B、12B 和 27B 三种参数规模。它支持 55 种语言，代表了开放翻译领域的重大进步。

来源: Google 博客作者: David Vilar, Kat Black 发布时间: 2026年1月15日 Hugging Face: google/translategemma-12b-it 技术报告: arXiv:2601.09012

核心特性

性能突破

12B 模型在 WMT24++ 基准测试中优于 27B Gemma 3 基线
使用不到一半的参数实现高保真翻译质量
4B 模型媲美更大的 12B 基线模型

语言覆盖

55 种核心语言：经过严格训练和评估
近 500 种额外语言对：为研究和进一步适配提供强大基础
涵盖高资源、中等资源和低资源语言

多模态能力

保留了 Gemma 3 的强大多模态能力
在 Vistra 图像翻译基准测试中表现优异
即使没有特定的多模态微调，文本翻译的改进也积极影响图像内文本翻译

技术架构

从 Gemini 知识蒸馏

两阶段微调过程：

1. 监督微调（SFT）

在多样化的并行数据集上微调基础 Gemma 3 模型：

人工翻译文本
最先进的 Gemini 模型生成的高质量合成翻译
实现广泛的语言覆盖和高保真度

2. 强化学习（RL）

使用奖励模型集成进一步优化翻译质量：

MetricX-QE
AutoMQM
引导模型生成更准确、更自然的翻译

模型规格与部署

三种规模

模型	参数量	部署场景
4B	40 亿	移动设备和边缘部署
12B	120 亿	消费级笔记本电脑
27B	270 亿	单个 H100 GPU 或云端 TPU

性能基准

WMT24++（55 种语言）

模型	MetricX↓	Comet↑
4B	5.32	81.6
12B	3.60	83.5
27B	3.09	84.4

WMT25（10 种语言）

模型	MQM↓
4B	2.57
12B	7.94
27B	5.86

使用方法

获取方式

技术报告: arXiv:2601.09012
Kaggle: Kaggle Models
Hugging Face: HF Collection
Vertex AI: Model Garden
Gemma Cookbook: Colab 笔记本

使用示例

python

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/translategemma-12b-it",
    device="cuda",
    dtype=torch.bfloat16
)

# 文本翻译
messages = [{
    "role": "user",
    "content": [{
        "type": "text",
        "source_lang_code": "cs",  # 捷克语
        "target_lang_code": "de-DE",  # 德语
        "text": "V nejhorším případě i k prasknutí čočky."
    }]
}]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])

输入输出格式

输入

文本字符串：要翻译的文本
图像：归一化到 896x896 分辨率，编码为 256 个 token
总上下文：2K tokens

输出

翻译为目标语言的文本

语言代码格式

支持两种格式：

ISO 639-1 Alpha-2：如 en、zh
地区化变体：如 en_US、en-GB、zh_CN

使用限制

预期用途

专门用于文本到文本或图像到文本的翻译
不对其他能力做出声明

局限性

训练数据：质量和多样性影响模型能力
上下文和任务复杂性：开放或高度复杂的任务可能具有挑战性
语言歧义和细微差别：可能难以掌握细微差别、反语或比喻语言
事实准确性：可能生成不正确或过时的陈述
常识推理：在某些情况下可能缺乏应用常识推理的能力

伦理与安全

识别的风险与缓解

风险	缓解措施
偏见延续	持续监控、去偏见技术
有害内容生成	内容安全机制
恶意滥用	技术限制、用户教育
隐私侵犯	隐私保护技术

收益

高性能翻译模型实现
在相同规模的开放模型中提供卓越性能
效率突破：更高吞吐量和更低延迟
为研究和开发提供强大工具

字节笔记本

TranslateGemma - Google 开源翻译模型家族

核心特性

性能突破

语言覆盖

多模态能力

技术架构

从 Gemini 知识蒸馏

1. 监督微调（SFT）

2. 强化学习（RL）

模型规格与部署

三种规模

性能基准

WMT24++（55 种语言）

WMT25（10 种语言）

使用方法

获取方式

使用示例

输入输出格式

输入

输出

语言代码格式

使用限制

预期用途

局限性

伦理与安全

识别的风险与缓解

收益

相关资源