字节笔记本

2026年2月22日

Llama-3.2-Vision-chinese-lora:中文视觉 LoRA 适配器

Llama-3.2-Vision-chinese-lora 是一个基于 Llama 3.2 Vision 模型的中文 LoRA 适配器,通过大量高质量中文文本和 VQA(视觉问答)数据进行微调,显著提升了模型在中文场景下的 OCR 能力。

模型简介

该模型由 Kadins 开发并发布在 Hugging Face 平台上,基于 Meta 的 Llama-3.2-11B-Vision-Instruct 作为基础模型,使用 PEFT(Parameter-Efficient Fine-Tuning)技术进行 LoRA 微调。

核心特性

  • 中文 OCR 增强:利用大量高质量中文文本和 VQA 数据,显著提升模型的中文 OCR 识别能力
  • LoRA 微调:采用参数高效微调技术,在保持基础模型能力的同时,针对中文场景进行优化
  • 视觉理解:支持图像理解和描述,可以处理包含中文内容的图片
  • 开源协议:采用 Apache 2.0 开源协议

技术栈

  • 基础模型:meta-llama/Llama-3.2-11B-Vision-Instruct
  • 微调技术:LoRA (Low-Rank Adaptation)
  • 框架支持:Transformers、PEFT
  • 模型格式:Safetensors
  • 任务类型:Image-Text-to-Text

使用方法

环境准备

bash
pip install torch transformers peft pillow

代码示例

python
import torch
from transformers import MllamaForConditionalGeneration, AutoProcessor
from peft import PeftModel
from PIL import Image

# 基础模型和 LoRA 模型 ID
base_model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"
lora_model_id = "Kadins/Llama-3.2-Vision-chinese-lora"

# 加载处理器
processor = AutoProcessor.from_pretrained(base_model_id)

# 加载基础模型
base_model = MllamaForConditionalGeneration.from_pretrained(
    base_model_id,
    device_map="auto",
    torch_dtype=torch.float16  # 如果硬件支持,可使用 torch.bfloat16
).eval()

# 加载 LoRA 模型并应用到基础模型
model = PeftModel.from_pretrained(base_model, lora_model_id)

# 可选:合并 LoRA 权重以获得更快的推理速度
model = model.merge_and_unload()

# 加载示例图片
image_path = 'path_to_image.jpg'
image = Image.open(image_path)

# 中文用户提示
user_prompt = "请描述这张图片。"

# 准备包含图片和文本的内容
content = [
    {"type": "image", "image": image},
    {"type": "text", "text": user_prompt}
]

# 应用对话模板创建提示
prompt = processor.apply_chat_template(
    [{"role": "user", "content": content}],
    add_generation_prompt=True
)

# 为模型准备输入
inputs = processor(
    images=image,
    text=prompt,
    return_tensors="pt"
).to(model.device)

# 生成模型响应
output = model.generate(**inputs, max_new_tokens=512)

# 解码输出获取助手响应
response = processor.decode(output[0], skip_special_tokens=True)

print("Assistant:", response)

应用场景

  • 中文文档 OCR:识别和提取中文文档、图片中的文字内容
  • 视觉问答:针对包含中文内容的图片进行问答
  • 图片描述生成:用中文描述图片内容
  • 多模态对话:结合图像和文本进行中文对话

模型信息

属性
模型名称Llama-3.2-Vision-chinese-lora
作者Kadins
基础模型meta-llama/Llama-3.2-11B-Vision-Instruct
许可证Apache 2.0
框架PEFT, Transformers
格式Safetensors
支持语言中文、英文

相关链接

分享: