text-generation-webui Model Tab 完全指南：LLaMA 模型加载与配置

本文介绍 text-generation-webui 的 Model Tab 功能，详细说明如何加载 LLaMA 等各种格式的模型、配置不同的模型加载器参数，以及应用 LoRA 和下载模型的方法。

Model Tab 概述

Model Tab 是 text-generation-webui 中用于加载模型、应用 LoRA 以及下载新模型的核心界面。它支持多种模型格式和加载器，包括 Transformers、llama.cpp、ExLlamav2 等。

支持的模型加载器

Transformers

适用模型：全精度（16-bit 或 32-bit）模型

特征识别：

仓库名称通常不包含 GGUF、EXL2、GPTQ 或 AWQ 字样
模型文件名为 pytorch_model.bin 或 model.safetensors
示例：https://huggingface.co/lmsys/vicuna-7b-v1.5

重要提示：全精度模型占用大量显存，建议勾选 load_in_4bit 和 use_double_quant 选项，使用 bitsandbytes 以 4-bit 精度加载模型。

关键参数：

参数	说明
`gpu-memory`	大于 0 时激活 accelerate 库的 CPU 卸载
`cpu-memory`	限制 CPU 内存使用量
`compute_dtype`	4-bit 加载时使用
`quant_type`	4-bit 加载时使用
`alpha_value`	扩展上下文长度，质量略有损失
`rope_freq_base`	CodeLlama 等模型必需参数
`compress_pos_emb`	原始的上下文长度扩展方法
`load-in-8bit`	使用 bitsandbytes 8-bit 精度加载
`load-in-4bit`	使用 bitsandbytes 4-bit 精度加载
`trust-remote-code`	执行某些模型的自定义 Python 代码
`use_flash_attention_2`	加载模型时启用 Flash Attention 2

ExLlamav2_HF

适用模型：GPTQ 和 EXL2 模型

特征识别：

EXL2 模型名称通常包含 "EXL2"
GPTQ 模型名称通常包含 "GPTQ" 或 "-4bit-128g"

示例：

关键参数：

参数	说明
`gpu-split`	多 GPU 时每张卡的显存分配
`max_seq_len`	模型最大序列长度
`cfg-cache`	为 CFG 负向提示创建第二个缓存
`cache_8bit`	创建 8-bit 精度缓存
`cache_4bit`	使用分组量化创建 Q4 缓存

ExLlamav2

与 ExLlamav2_HF 相同，但使用 ExLlamav2 内部采样器而非 Transformers 库的采样器。

llama.cpp

适用模型：GGUF 格式模型（GGML 已弃用）

示例：https://huggingface.co/TheBloke/Llama-2-7b-Chat-GGUF

关键参数：

参数	说明
`n-gpu-layers`	分配到 GPU 的层数
`n_ctx`	模型上下文长度
`tensor_split`	多 GPU 显存分配比例
`n_batch`	提示词处理的批大小
`threads`	线程数（建议设为物理核心数）
`threads_batch`	批处理线程数
`tensorcores`	使用支持 Tensor Cores 编译的 llama.cpp
`streamingllm`	避免重新评估整个提示词的实验性功能
`mlock`	强制系统将模型保留在 RAM 中
`numa`	可能在某些多 CPU 系统上提升性能

llamacpp_HF

与 llama.cpp 相同，但使用 Transformers 采样器和 tokenizer。

使用要求：需要下载 tokenizer，有两种选择：

在 "Download model or LoRA" 中下载 oobabooga/llama-tokenizer（默认 Llama tokenizer）
将 .gguf 文件放在 models/ 的子文件夹中，并放置以下 3 个文件：
- tokenizer.model
- tokenizer_config.json
- special_tokens_map.json

AutoAWQ

适用模型：AWQ 量化模型

示例：https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-AWQ

模型下拉菜单

在 Model dropdown 中可以：

选择要加载的模型
刷新可用模型列表（🔄）
加载/卸载/重新加载选中的模型
保存模型设置

自动加载：勾选 "Autoload the model" 后，选择模型时会自动加载。

LoRA 下拉菜单

用于向模型应用 LoRA（Low-Rank Adaptation）。注意：并非所有加载器都实现了 LoRA 支持。

下载模型或 LoRA

可直接从 https://huggingface.co/ 下载模型或 LoRA：

模型保存位置：text-generation-webui/models
LoRA 保存位置：text-generation-webui/loras

输入格式：

Hugging Face 用户名/模型路径
或完整的模型 URL
指定分支：在路径后添加 : 和分支名

下载单个文件（适用于 GGUF 格式模型）：

输入模型路径后点击 "Get file list"
复制所需文件名到 "File name" 字段
点击 "Download"

上下文长度扩展

对于需要扩展上下文长度的模型：

扩展倍数	alpha_value 推荐值
1.5x	1.75
2x	2.5

CodeLlama 特殊配置：rope_freq_base 需要设置为 1000000

总结

text-generation-webui 的 Model Tab 提供了灵活的模型加载方案，支持从全精度到各种量化格式（GGUF、GPTQ、EXL2、AWQ）的模型。根据硬件条件和模型格式选择合适的加载器，可以充分利用 GPU 资源并获得最佳推理性能。

字节笔记本

text-generation-webui Model Tab 完全指南：LLaMA 模型加载与配置

Model Tab 概述

支持的模型加载器

Transformers

ExLlamav2_HF

ExLlamav2

llama.cpp

llamacpp_HF

AutoAWQ

模型下拉菜单

LoRA 下拉菜单

下载模型或 LoRA

上下文长度扩展

总结