字
字节笔记本
2026年2月22日
Llama-3.2-Vision-chinese-lora:中文视觉 LoRA 适配器
Llama-3.2-Vision-chinese-lora 是一个基于 Llama 3.2 Vision 模型的中文 LoRA 适配器,通过大量高质量中文文本和 VQA(视觉问答)数据进行微调,显著提升了模型在中文场景下的 OCR 能力。
模型简介
该模型由 Kadins 开发并发布在 Hugging Face 平台上,基于 Meta 的 Llama-3.2-11B-Vision-Instruct 作为基础模型,使用 PEFT(Parameter-Efficient Fine-Tuning)技术进行 LoRA 微调。
核心特性
- 中文 OCR 增强:利用大量高质量中文文本和 VQA 数据,显著提升模型的中文 OCR 识别能力
- LoRA 微调:采用参数高效微调技术,在保持基础模型能力的同时,针对中文场景进行优化
- 视觉理解:支持图像理解和描述,可以处理包含中文内容的图片
- 开源协议:采用 Apache 2.0 开源协议
技术栈
- 基础模型:meta-llama/Llama-3.2-11B-Vision-Instruct
- 微调技术:LoRA (Low-Rank Adaptation)
- 框架支持:Transformers、PEFT
- 模型格式:Safetensors
- 任务类型:Image-Text-to-Text
使用方法
环境准备
bash
pip install torch transformers peft pillow代码示例
python
import torch
from transformers import MllamaForConditionalGeneration, AutoProcessor
from peft import PeftModel
from PIL import Image
# 基础模型和 LoRA 模型 ID
base_model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"
lora_model_id = "Kadins/Llama-3.2-Vision-chinese-lora"
# 加载处理器
processor = AutoProcessor.from_pretrained(base_model_id)
# 加载基础模型
base_model = MllamaForConditionalGeneration.from_pretrained(
base_model_id,
device_map="auto",
torch_dtype=torch.float16 # 如果硬件支持,可使用 torch.bfloat16
).eval()
# 加载 LoRA 模型并应用到基础模型
model = PeftModel.from_pretrained(base_model, lora_model_id)
# 可选:合并 LoRA 权重以获得更快的推理速度
model = model.merge_and_unload()
# 加载示例图片
image_path = 'path_to_image.jpg'
image = Image.open(image_path)
# 中文用户提示
user_prompt = "请描述这张图片。"
# 准备包含图片和文本的内容
content = [
{"type": "image", "image": image},
{"type": "text", "text": user_prompt}
]
# 应用对话模板创建提示
prompt = processor.apply_chat_template(
[{"role": "user", "content": content}],
add_generation_prompt=True
)
# 为模型准备输入
inputs = processor(
images=image,
text=prompt,
return_tensors="pt"
).to(model.device)
# 生成模型响应
output = model.generate(**inputs, max_new_tokens=512)
# 解码输出获取助手响应
response = processor.decode(output[0], skip_special_tokens=True)
print("Assistant:", response)应用场景
- 中文文档 OCR:识别和提取中文文档、图片中的文字内容
- 视觉问答:针对包含中文内容的图片进行问答
- 图片描述生成:用中文描述图片内容
- 多模态对话:结合图像和文本进行中文对话
模型信息
| 属性 | 值 |
|---|---|
| 模型名称 | Llama-3.2-Vision-chinese-lora |
| 作者 | Kadins |
| 基础模型 | meta-llama/Llama-3.2-11B-Vision-Instruct |
| 许可证 | Apache 2.0 |
| 框架 | PEFT, Transformers |
| 格式 | Safetensors |
| 支持语言 | 中文、英文 |
相关链接
- Hugging Face 模型页:https://huggingface.co/Kadins/Llama-3.2-Vision-chinese-lora
- 基础模型:https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct
- Transformers 文档:https://huggingface.co/docs/transformers
- PEFT 文档:https://huggingface.co/docs/peft
分享: