字节笔记本

2026年2月22日

text-generation-webui Model Tab 完全指南:LLaMA 模型加载与配置

本文介绍 text-generation-webui 的 Model Tab 功能,详细说明如何加载 LLaMA 等各种格式的模型、配置不同的模型加载器参数,以及应用 LoRA 和下载模型的方法。

Model Tab 概述

Model Tab 是 text-generation-webui 中用于加载模型、应用 LoRA 以及下载新模型的核心界面。它支持多种模型格式和加载器,包括 Transformers、llama.cpp、ExLlamav2 等。

支持的模型加载器

Transformers

适用模型:全精度(16-bit 或 32-bit)模型

特征识别

重要提示:全精度模型占用大量显存,建议勾选 load_in_4bituse_double_quant 选项,使用 bitsandbytes 以 4-bit 精度加载模型。

关键参数

参数说明
gpu-memory大于 0 时激活 accelerate 库的 CPU 卸载
cpu-memory限制 CPU 内存使用量
compute_dtype4-bit 加载时使用
quant_type4-bit 加载时使用
alpha_value扩展上下文长度,质量略有损失
rope_freq_baseCodeLlama 等模型必需参数
compress_pos_emb原始的上下文长度扩展方法
load-in-8bit使用 bitsandbytes 8-bit 精度加载
load-in-4bit使用 bitsandbytes 4-bit 精度加载
trust-remote-code执行某些模型的自定义 Python 代码
use_flash_attention_2加载模型时启用 Flash Attention 2

ExLlamav2_HF

适用模型:GPTQ 和 EXL2 模型

特征识别

  • EXL2 模型名称通常包含 "EXL2"
  • GPTQ 模型名称通常包含 "GPTQ" 或 "-4bit-128g"

示例

关键参数

参数说明
gpu-split多 GPU 时每张卡的显存分配
max_seq_len模型最大序列长度
cfg-cache为 CFG 负向提示创建第二个缓存
cache_8bit创建 8-bit 精度缓存
cache_4bit使用分组量化创建 Q4 缓存

ExLlamav2

与 ExLlamav2_HF 相同,但使用 ExLlamav2 内部采样器而非 Transformers 库的采样器。

llama.cpp

适用模型:GGUF 格式模型(GGML 已弃用)

示例https://huggingface.co/TheBloke/Llama-2-7b-Chat-GGUF

关键参数

参数说明
n-gpu-layers分配到 GPU 的层数
n_ctx模型上下文长度
tensor_split多 GPU 显存分配比例
n_batch提示词处理的批大小
threads线程数(建议设为物理核心数)
threads_batch批处理线程数
tensorcores使用支持 Tensor Cores 编译的 llama.cpp
streamingllm避免重新评估整个提示词的实验性功能
mlock强制系统将模型保留在 RAM 中
numa可能在某些多 CPU 系统上提升性能

llamacpp_HF

与 llama.cpp 相同,但使用 Transformers 采样器和 tokenizer。

使用要求:需要下载 tokenizer,有两种选择:

  1. 在 "Download model or LoRA" 中下载 oobabooga/llama-tokenizer(默认 Llama tokenizer)
  2. 将 .gguf 文件放在 models/ 的子文件夹中,并放置以下 3 个文件:
    • tokenizer.model
    • tokenizer_config.json
    • special_tokens_map.json

AutoAWQ

适用模型:AWQ 量化模型

示例https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-AWQ

模型下拉菜单

在 Model dropdown 中可以:

  • 选择要加载的模型
  • 刷新可用模型列表(🔄)
  • 加载/卸载/重新加载选中的模型
  • 保存模型设置

自动加载:勾选 "Autoload the model" 后,选择模型时会自动加载。

LoRA 下拉菜单

用于向模型应用 LoRA(Low-Rank Adaptation)。注意:并非所有加载器都实现了 LoRA 支持。

下载模型或 LoRA

可直接从 https://huggingface.co/ 下载模型或 LoRA:

  • 模型保存位置text-generation-webui/models
  • LoRA 保存位置text-generation-webui/loras

输入格式

  • Hugging Face 用户名/模型路径
  • 或完整的模型 URL
  • 指定分支:在路径后添加 : 和分支名

下载单个文件(适用于 GGUF 格式模型):

  1. 输入模型路径后点击 "Get file list"
  2. 复制所需文件名到 "File name" 字段
  3. 点击 "Download"

上下文长度扩展

对于需要扩展上下文长度的模型:

扩展倍数alpha_value 推荐值
1.5x1.75
2x2.5

CodeLlama 特殊配置rope_freq_base 需要设置为 1000000

总结

text-generation-webui 的 Model Tab 提供了灵活的模型加载方案,支持从全精度到各种量化格式(GGUF、GPTQ、EXL2、AWQ)的模型。根据硬件条件和模型格式选择合适的加载器,可以充分利用 GPU 资源并获得最佳推理性能。

分享: