llama.cpp 全新 WebUI 使用指南

本文介绍 llama.cpp 全新 WebUI 的使用指南。这个基于 SvelteKit 的现代化界面配合 llama-server 强大的后端能力，提供了极致的本地 AI 对话体验。

概述

llama.cpp 的新 WebUI 结合 llama-server 的高级后端功能，提供了终极本地 AI 聊天体验。以下是该项目领先于其他替代方案的几个特点：

免费、开源且社区驱动
在所有硬件上都具有出色的性能
高级上下文和前缀缓存
支持并行和远程用户
极轻量级且内存高效
活跃且富有创意的社区
100% 隐私保护

快速开始

1. 获取 llama.cpp

2. 启动 llama-server

bash

# 示例：在 http://127.0.0.1:8033 运行 gpt-oss-20b 模型
llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

3. 在浏览器中打开 WebUI

启动服务器后，在浏览器中访问对应的地址即可开始使用 WebUI。

提示：对于 Mac 用户，可以尝试新的 LlamaBarn 应用程序，提供简单的 GUI 设置界面。

核心功能

文本文档处理

可以从磁盘或剪贴板添加多个文本文件到对话上下文中。

PDF 文档处理

支持附加一个或多个 PDF 文件到对话。默认情况下，PDF 内容将转换为纯文本（不包括任何视觉元素）。

当 AI 模型支持时，WebUI 还可以将 PDF 作为图像处理。

图像输入

当选择的 AI 模型具有视觉输入能力时，WebUI 允许您在对话中插入图像。图像可以与文本上下文一起插入。

对话分支

通过编辑或重新生成消息，可以从对话的先前时间点进行分支。

并行对话

同时运行多个聊天对话，也支持并行图像处理。

覆盖默认采样参数

启动 llama-server 时可以使用一组默认采样参数：

bash

# 设置默认 Top-K 为 5，默认温度为 0.80
llama-server -hf ggml-org/gpt-oss-120b-GGUF --jinja -c 0 --port 8033 --alias gpt-oss-120b --top-k 5 --temp 0.80

这些参数将成为 WebUI 设置中的默认值。

数学表达式渲染

WebUI 可以渲染数学表达式，方便查看和编辑包含数学公式的内容。

通过 URL 参数输入

WebUI 支持通过 URL 参数传递输入，方便集成和自动化。

HTML/JS 预览

WebUI 支持内联渲染生成的 HTML/JS 代码，方便预览前端代码效果。

约束生成

指定自定义 JSON 模式以将生成的输出约束为特定格式。例如，可以从多个文档中提取通用的发票数据。

导入/导出

使用导入/导出选项直接通过 WebUI 管理您的私人对话。

高效的 SSM 上下文管理

状态空间模型（SSM，例如 Mamba）的上下文管理和前缀缓存可能很棘手。llama-server 为单个或多个用户高效解决此问题，并进行最少的重新处理。

移动端兼容

新的 WebUI 对移动设备友好，支持在手机浏览器中使用。

示例命令

以下是一些用于上述示例的 llama-server 命令：

bash

# 轻量级 gpt-oss-20b
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-20b-GGUF --alias "gpt-oss-20b"

# 纯文本 gpt-oss-120b，默认使用贪婪采样
llama-server --jinja -c 0 --port 8033 -hf ggml-org/gpt-oss-120b-GGUF --alias "gpt-oss-120b" --top-k 1

# 支持视觉的 Qwen3 VL 30B A3B，可从本地网络访问
llama-server --jinja -c 0 --port 8033 -hf ggml-org/Qwen3-VL-30B-A3B-Instruct-Q8_0-GGUF --alias "Qwen3 VL 30B A3B" --host 192.168.100.3

# 混合模型 Granite 4.0 H Small，支持 100 万 token 上下文
llama-server --jinja -c 0 --port 8033 -hf ggml-org/granite-4.0-h-small-Q8_0-GGUF --alias "Granite 4.0 Hybrid Small"

致谢

Aleksander Grygier - 主导开发
ServeurpersoCom - 宝贵贡献
Hugging Face - 全面支持

字节笔记本

llama.cpp 全新 WebUI 使用指南

概述

快速开始

1. 获取 llama.cpp

2. 启动 llama-server

3. 在浏览器中打开 WebUI

核心功能

文本文档处理

PDF 文档处理

图像输入

对话分支

并行对话

覆盖默认采样参数

数学表达式渲染

通过 URL 参数输入

HTML/JS 预览

约束生成

导入/导出

高效的 SSM 上下文管理

移动端兼容

示例命令

致谢

相关链接