Llama-3.2-Vision-chinese-lora：中文视觉 LoRA 适配器

Llama-3.2-Vision-chinese-lora 是一个基于 Llama 3.2 Vision 模型的中文 LoRA 适配器，通过大量高质量中文文本和 VQA（视觉问答）数据进行微调，显著提升了模型在中文场景下的 OCR 能力。

模型简介

该模型由 Kadins 开发并发布在 Hugging Face 平台上，基于 Meta 的 Llama-3.2-11B-Vision-Instruct 作为基础模型，使用 PEFT（Parameter-Efficient Fine-Tuning）技术进行 LoRA 微调。

核心特性

中文 OCR 增强：利用大量高质量中文文本和 VQA 数据，显著提升模型的中文 OCR 识别能力
LoRA 微调：采用参数高效微调技术，在保持基础模型能力的同时，针对中文场景进行优化
视觉理解：支持图像理解和描述，可以处理包含中文内容的图片
开源协议：采用 Apache 2.0 开源协议

技术栈

基础模型：meta-llama/Llama-3.2-11B-Vision-Instruct
微调技术：LoRA (Low-Rank Adaptation)
框架支持：Transformers、PEFT
模型格式：Safetensors
任务类型：Image-Text-to-Text

使用方法

环境准备

bash

pip install torch transformers peft pillow

代码示例

python

import torch
from transformers import MllamaForConditionalGeneration, AutoProcessor
from peft import PeftModel
from PIL import Image

# 基础模型和 LoRA 模型 ID
base_model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"
lora_model_id = "Kadins/Llama-3.2-Vision-chinese-lora"

# 加载处理器
processor = AutoProcessor.from_pretrained(base_model_id)

# 加载基础模型
base_model = MllamaForConditionalGeneration.from_pretrained(
    base_model_id,
    device_map="auto",
    torch_dtype=torch.float16  # 如果硬件支持，可使用 torch.bfloat16
).eval()

# 加载 LoRA 模型并应用到基础模型
model = PeftModel.from_pretrained(base_model, lora_model_id)

# 可选：合并 LoRA 权重以获得更快的推理速度
model = model.merge_and_unload()

# 加载示例图片
image_path = 'path_to_image.jpg'
image = Image.open(image_path)

# 中文用户提示
user_prompt = "请描述这张图片。"

# 准备包含图片和文本的内容
content = [
    {"type": "image", "image": image},
    {"type": "text", "text": user_prompt}
]

# 应用对话模板创建提示
prompt = processor.apply_chat_template(
    [{"role": "user", "content": content}],
    add_generation_prompt=True
)

# 为模型准备输入
inputs = processor(
    images=image,
    text=prompt,
    return_tensors="pt"
).to(model.device)

# 生成模型响应
output = model.generate(**inputs, max_new_tokens=512)

# 解码输出获取助手响应
response = processor.decode(output[0], skip_special_tokens=True)

print("Assistant:", response)

应用场景

中文文档 OCR：识别和提取中文文档、图片中的文字内容
视觉问答：针对包含中文内容的图片进行问答
图片描述生成：用中文描述图片内容
多模态对话：结合图像和文本进行中文对话

模型信息

属性	值
模型名称	Llama-3.2-Vision-chinese-lora
作者	Kadins
基础模型	meta-llama/Llama-3.2-11B-Vision-Instruct
许可证	Apache 2.0
框架	PEFT, Transformers
格式	Safetensors
支持语言	中文、英文

字节笔记本