字节笔记本
2026年2月22日
llama.cpp 全新 WebUI 使用指南
本文介绍 llama.cpp 全新 WebUI 的使用指南。这个基于 SvelteKit 的现代化界面配合 llama-server 强大的后端能力,提供了极致的本地 AI 对话体验。
概述
llama.cpp 的新 WebUI 结合 llama-server 的高级后端功能,提供了终极本地 AI 聊天体验。以下是该项目领先于其他替代方案的几个特点:
- 免费、开源且社区驱动
- 在所有硬件上都具有出色的性能
- 高级上下文和前缀缓存
- 支持并行和远程用户
- 极轻量级且内存高效
- 活跃且富有创意的社区
- 100% 隐私保护
快速开始
1. 获取 llama.cpp
2. 启动 llama-server
# 示例:在 http://127.0.0.1:8033 运行 gpt-oss-20b 模型
llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -c 0 --host 127.0.0.1 --port 80333. 在浏览器中打开 WebUI
启动服务器后,在浏览器中访问对应的地址即可开始使用 WebUI。
提示:对于 Mac 用户,可以尝试新的 LlamaBarn 应用程序,提供简单的 GUI 设置界面。
核心功能
文本文档处理
可以从磁盘或剪贴板添加多个文本文件到对话上下文中。
PDF 文档处理
支持附加一个或多个 PDF 文件到对话。默认情况下,PDF 内容将转换为纯文本(不包括任何视觉元素)。
当 AI 模型支持时,WebUI 还可以将 PDF 作为图像处理。
图像输入
当选择的 AI 模型具有视觉输入能力时,WebUI 允许您在对话中插入图像。图像可以与文本上下文一起插入。
对话分支
通过编辑或重新生成消息,可以从对话的先前时间点进行分支。
并行对话
同时运行多个聊天对话,也支持并行图像处理。
覆盖默认采样参数
启动 llama-server 时可以使用一组默认采样参数:
# 设置默认 Top-K 为 5,默认温度为 0.80
llama-server -hf ggml-org/gpt-oss-120b-GGUF --jinja -c 0 --port 8033 --alias gpt-oss-120b --top-k 5 --temp 0.80这些参数将成为 WebUI 设置中的默认值。
数学表达式渲染
WebUI 可以渲染数学表达式,方便查看和编辑包含数学公式的内容。
通过 URL 参数输入
WebUI 支持通过 URL 参数传递输入,方便集成和自动化。
HTML/JS 预览
WebUI 支持内联渲染生成的 HTML/JS 代码,方便预览前端代码效果。
约束生成
指定自定义 JSON 模式以将生成的输出约束为特定格式。例如,可以从多个文档中提取通用的发票数据。
导入/导出
使用导入/导出选项直接通过 WebUI 管理您的私人对话。
高效的 SSM 上下文管理
状态空间模型(SSM,例如 Mamba)的上下文管理和前缀缓存可能很棘手。llama-server 为单个或多个用户高效解决此问题,并进行最少的重新处理。
移动端兼容
新的 WebUI 对移动设备友好,支持在手机浏览器中使用。
示例命令
以下是一些用于上述示例的 llama-server 命令:
# 轻量级 gpt-oss-20b
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-20b-GGUF --alias "gpt-oss-20b"
# 纯文本 gpt-oss-120b,默认使用贪婪采样
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-120b-GGUF --alias "gpt-oss-120b" --top-k 1
# 支持视觉的 Qwen3 VL 30B A3B,可从本地网络访问
llama-server --jinja -c 0 --port 8033 -hf ggml-org/Qwen3-VL-30B-A3B-Instruct-Q8_0-GGUF --alias "Qwen3 VL 30B A3B" --host 192.168.100.3
# 混合模型 Granite 4.0 H Small,支持 100 万 token 上下文
llama-server --jinja -c 0 --port 8033 -hf ggml-org/granite-4.0-h-small-Q8_0-GGUF --alias "Granite 4.0 Hybrid Small"致谢
- Aleksander Grygier - 主导开发
- ServeurpersoCom - 宝贵贡献
- Hugging Face - 全面支持