字节笔记本
2026年2月22日
text-generation-webui Model Tab 完全指南:LLaMA 模型加载与配置
本文介绍 text-generation-webui 的 Model Tab 功能,详细说明如何加载 LLaMA 等各种格式的模型、配置不同的模型加载器参数,以及应用 LoRA 和下载模型的方法。
Model Tab 概述
Model Tab 是 text-generation-webui 中用于加载模型、应用 LoRA 以及下载新模型的核心界面。它支持多种模型格式和加载器,包括 Transformers、llama.cpp、ExLlamav2 等。
支持的模型加载器
Transformers
适用模型:全精度(16-bit 或 32-bit)模型
特征识别:
- 仓库名称通常不包含 GGUF、EXL2、GPTQ 或 AWQ 字样
- 模型文件名为
pytorch_model.bin或model.safetensors - 示例:https://huggingface.co/lmsys/vicuna-7b-v1.5
重要提示:全精度模型占用大量显存,建议勾选 load_in_4bit 和 use_double_quant 选项,使用 bitsandbytes 以 4-bit 精度加载模型。
关键参数:
| 参数 | 说明 |
|---|---|
gpu-memory | 大于 0 时激活 accelerate 库的 CPU 卸载 |
cpu-memory | 限制 CPU 内存使用量 |
compute_dtype | 4-bit 加载时使用 |
quant_type | 4-bit 加载时使用 |
alpha_value | 扩展上下文长度,质量略有损失 |
rope_freq_base | CodeLlama 等模型必需参数 |
compress_pos_emb | 原始的上下文长度扩展方法 |
load-in-8bit | 使用 bitsandbytes 8-bit 精度加载 |
load-in-4bit | 使用 bitsandbytes 4-bit 精度加载 |
trust-remote-code | 执行某些模型的自定义 Python 代码 |
use_flash_attention_2 | 加载模型时启用 Flash Attention 2 |
ExLlamav2_HF
适用模型:GPTQ 和 EXL2 模型
特征识别:
- EXL2 模型名称通常包含 "EXL2"
- GPTQ 模型名称通常包含 "GPTQ" 或 "-4bit-128g"
示例:
- https://huggingface.co/turboderp/Llama2-70B-exl2
- https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ
关键参数:
| 参数 | 说明 |
|---|---|
gpu-split | 多 GPU 时每张卡的显存分配 |
max_seq_len | 模型最大序列长度 |
cfg-cache | 为 CFG 负向提示创建第二个缓存 |
cache_8bit | 创建 8-bit 精度缓存 |
cache_4bit | 使用分组量化创建 Q4 缓存 |
ExLlamav2
与 ExLlamav2_HF 相同,但使用 ExLlamav2 内部采样器而非 Transformers 库的采样器。
llama.cpp
适用模型:GGUF 格式模型(GGML 已弃用)
示例:https://huggingface.co/TheBloke/Llama-2-7b-Chat-GGUF
关键参数:
| 参数 | 说明 |
|---|---|
n-gpu-layers | 分配到 GPU 的层数 |
n_ctx | 模型上下文长度 |
tensor_split | 多 GPU 显存分配比例 |
n_batch | 提示词处理的批大小 |
threads | 线程数(建议设为物理核心数) |
threads_batch | 批处理线程数 |
tensorcores | 使用支持 Tensor Cores 编译的 llama.cpp |
streamingllm | 避免重新评估整个提示词的实验性功能 |
mlock | 强制系统将模型保留在 RAM 中 |
numa | 可能在某些多 CPU 系统上提升性能 |
llamacpp_HF
与 llama.cpp 相同,但使用 Transformers 采样器和 tokenizer。
使用要求:需要下载 tokenizer,有两种选择:
- 在 "Download model or LoRA" 中下载
oobabooga/llama-tokenizer(默认 Llama tokenizer) - 将 .gguf 文件放在
models/的子文件夹中,并放置以下 3 个文件:tokenizer.modeltokenizer_config.jsonspecial_tokens_map.json
AutoAWQ
适用模型:AWQ 量化模型
示例:https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-AWQ
模型下拉菜单
在 Model dropdown 中可以:
- 选择要加载的模型
- 刷新可用模型列表(🔄)
- 加载/卸载/重新加载选中的模型
- 保存模型设置
自动加载:勾选 "Autoload the model" 后,选择模型时会自动加载。
LoRA 下拉菜单
用于向模型应用 LoRA(Low-Rank Adaptation)。注意:并非所有加载器都实现了 LoRA 支持。
下载模型或 LoRA
可直接从 https://huggingface.co/ 下载模型或 LoRA:
- 模型保存位置:
text-generation-webui/models - LoRA 保存位置:
text-generation-webui/loras
输入格式:
- Hugging Face 用户名/模型路径
- 或完整的模型 URL
- 指定分支:在路径后添加
:和分支名
下载单个文件(适用于 GGUF 格式模型):
- 输入模型路径后点击 "Get file list"
- 复制所需文件名到 "File name" 字段
- 点击 "Download"
上下文长度扩展
对于需要扩展上下文长度的模型:
| 扩展倍数 | alpha_value 推荐值 |
|---|---|
| 1.5x | 1.75 |
| 2x | 2.5 |
CodeLlama 特殊配置:rope_freq_base 需要设置为 1000000
总结
text-generation-webui 的 Model Tab 提供了灵活的模型加载方案,支持从全精度到各种量化格式(GGUF、GPTQ、EXL2、AWQ)的模型。根据硬件条件和模型格式选择合适的加载器,可以充分利用 GPU 资源并获得最佳推理性能。