ByteNoteByteNote

字节笔记本

2026年5月3日

TranslateGemma - Google 开源翻译模型家族

API中转
¥120

TranslateGemma 是基于 Gemma 3 构建的新一代开源翻译模型家族,提供 4B、12B 和 27B 三种参数规模。它支持 55 种语言,代表了开放翻译领域的重大进步。

来源: Google 博客 作者: David Vilar, Kat Black 发布时间: 2026年1月15日 Hugging Face: google/translategemma-12b-it 技术报告: arXiv:2601.09012

核心特性

性能突破

  • 12B 模型在 WMT24++ 基准测试中优于 27B Gemma 3 基线
  • 使用不到一半的参数实现高保真翻译质量
  • 4B 模型媲美更大的 12B 基线模型

语言覆盖

  • 55 种核心语言:经过严格训练和评估
  • 近 500 种额外语言对:为研究和进一步适配提供强大基础
  • 涵盖高资源、中等资源和低资源语言

多模态能力

  • 保留了 Gemma 3 的强大多模态能力
  • 在 Vistra 图像翻译基准测试中表现优异
  • 即使没有特定的多模态微调,文本翻译的改进也积极影响图像内文本翻译

技术架构

从 Gemini 知识蒸馏

两阶段微调过程

1. 监督微调(SFT)

在多样化的并行数据集上微调基础 Gemma 3 模型:

  • 人工翻译文本
  • 最先进的 Gemini 模型生成的高质量合成翻译
  • 实现广泛的语言覆盖和高保真度

2. 强化学习(RL)

使用奖励模型集成进一步优化翻译质量:

  • MetricX-QE
  • AutoMQM
  • 引导模型生成更准确、更自然的翻译

模型规格与部署

三种规模

模型参数量部署场景
4B40 亿移动设备和边缘部署
12B120 亿消费级笔记本电脑
27B270 亿单个 H100 GPU 或云端 TPU

性能基准

WMT24++(55 种语言)

模型MetricX↓Comet↑
4B5.3281.6
12B3.6083.5
27B3.0984.4

WMT25(10 种语言)

模型MQM↓
4B2.57
12B7.94
27B5.86

使用方法

获取方式

  1. 技术报告: arXiv:2601.09012
  2. Kaggle: Kaggle Models
  3. Hugging Face: HF Collection
  4. Vertex AI: Model Garden
  5. Gemma Cookbook: Colab 笔记本

使用示例

python
from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/translategemma-12b-it",
    device="cuda",
    dtype=torch.bfloat16
)

# 文本翻译
messages = [{
    "role": "user",
    "content": [{
        "type": "text",
        "source_lang_code": "cs",  # 捷克语
        "target_lang_code": "de-DE",  # 德语
        "text": "V nejhorším případě i k prasknutí čočky."
    }]
}]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])

输入输出格式

输入

  • 文本字符串:要翻译的文本
  • 图像:归一化到 896x896 分辨率,编码为 256 个 token
  • 总上下文:2K tokens

输出

  • 翻译为目标语言的文本

语言代码格式

支持两种格式:

  • ISO 639-1 Alpha-2:如 enzh
  • 地区化变体:如 en_USen-GBzh_CN

使用限制

预期用途

  • 专门用于文本到文本或图像到文本的翻译
  • 不对其他能力做出声明

局限性

  • 训练数据:质量和多样性影响模型能力
  • 上下文和任务复杂性:开放或高度复杂的任务可能具有挑战性
  • 语言歧义和细微差别:可能难以掌握细微差别、反语或比喻语言
  • 事实准确性:可能生成不正确或过时的陈述
  • 常识推理:在某些情况下可能缺乏应用常识推理的能力

伦理与安全

识别的风险与缓解

风险缓解措施
偏见延续持续监控、去偏见技术
有害内容生成内容安全机制
恶意滥用技术限制、用户教育
隐私侵犯隐私保护技术

收益

  • 高性能翻译模型实现
  • 在相同规模的开放模型中提供卓越性能
  • 效率突破:更高吞吐量和更低延迟
  • 为研究和开发提供强大工具

相关资源

分享: