字节笔记本

2026年2月22日

llama.cpp 全新 WebUI 使用指南

本文介绍 llama.cpp 全新 WebUI 的使用指南。这个基于 SvelteKit 的现代化界面配合 llama-server 强大的后端能力,提供了极致的本地 AI 对话体验。

概述

llama.cpp 的新 WebUI 结合 llama-server 的高级后端功能,提供了终极本地 AI 聊天体验。以下是该项目领先于其他替代方案的几个特点:

  • 免费、开源且社区驱动
  • 在所有硬件上都具有出色的性能
  • 高级上下文和前缀缓存
  • 支持并行和远程用户
  • 极轻量级且内存高效
  • 活跃且富有创意的社区
  • 100% 隐私保护

快速开始

1. 获取 llama.cpp

2. 启动 llama-server

bash
# 示例:在 http://127.0.0.1:8033 运行 gpt-oss-20b 模型
llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

3. 在浏览器中打开 WebUI

启动服务器后,在浏览器中访问对应的地址即可开始使用 WebUI。

提示:对于 Mac 用户,可以尝试新的 LlamaBarn 应用程序,提供简单的 GUI 设置界面。

核心功能

文本文档处理

可以从磁盘或剪贴板添加多个文本文件到对话上下文中。

PDF 文档处理

支持附加一个或多个 PDF 文件到对话。默认情况下,PDF 内容将转换为纯文本(不包括任何视觉元素)。

当 AI 模型支持时,WebUI 还可以将 PDF 作为图像处理。

图像输入

当选择的 AI 模型具有视觉输入能力时,WebUI 允许您在对话中插入图像。图像可以与文本上下文一起插入。

对话分支

通过编辑或重新生成消息,可以从对话的先前时间点进行分支。

并行对话

同时运行多个聊天对话,也支持并行图像处理。

覆盖默认采样参数

启动 llama-server 时可以使用一组默认采样参数:

bash
# 设置默认 Top-K 为 5,默认温度为 0.80
llama-server -hf ggml-org/gpt-oss-120b-GGUF --jinja -c 0 --port 8033 --alias gpt-oss-120b --top-k 5 --temp 0.80

这些参数将成为 WebUI 设置中的默认值。

数学表达式渲染

WebUI 可以渲染数学表达式,方便查看和编辑包含数学公式的内容。

通过 URL 参数输入

WebUI 支持通过 URL 参数传递输入,方便集成和自动化。

HTML/JS 预览

WebUI 支持内联渲染生成的 HTML/JS 代码,方便预览前端代码效果。

约束生成

指定自定义 JSON 模式以将生成的输出约束为特定格式。例如,可以从多个文档中提取通用的发票数据。

导入/导出

使用导入/导出选项直接通过 WebUI 管理您的私人对话。

高效的 SSM 上下文管理

状态空间模型(SSM,例如 Mamba)的上下文管理和前缀缓存可能很棘手。llama-server 为单个或多个用户高效解决此问题,并进行最少的重新处理。

移动端兼容

新的 WebUI 对移动设备友好,支持在手机浏览器中使用。

示例命令

以下是一些用于上述示例的 llama-server 命令:

bash
# 轻量级 gpt-oss-20b
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-20b-GGUF --alias "gpt-oss-20b"

# 纯文本 gpt-oss-120b,默认使用贪婪采样
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-120b-GGUF --alias "gpt-oss-120b" --top-k 1

# 支持视觉的 Qwen3 VL 30B A3B,可从本地网络访问
llama-server --jinja -c 0 --port 8033 -hf ggml-org/Qwen3-VL-30B-A3B-Instruct-Q8_0-GGUF --alias "Qwen3 VL 30B A3B" --host 192.168.100.3

# 混合模型 Granite 4.0 H Small,支持 100 万 token 上下文
llama-server --jinja -c 0 --port 8033 -hf ggml-org/granite-4.0-h-small-Q8_0-GGUF --alias "Granite 4.0 Hybrid Small"

致谢

相关链接

分享: