字
字节笔记本
2026年3月13日
Qwen3.5-9B ToolHub:本地多模态 AI 一体化方案
API中转
¥120
本文介绍 Qwen3.5-9B ToolHub,一个基于 Qwen3.5-9B 多模态模型的本地一体化部署方案。项目支持联网搜索、图片识别、文件读取等功能,提供 OpenAI 兼容的 API 接口,所有推理在本机 GPU 完成,是构建本地 AI 助手的理想选择。
项目简介
Qwen3.5-9B ToolHub 是一个开源的本地 AI 部署方案,基于通义千问 Qwen3.5-9B 多模态大模型。项目采用 llama.cpp 高性能推理引擎,支持 Windows 10/11 系统,需要 NVIDIA 显卡(≥8GB 显存),提供完整的工具调用能力和多模态支持。
核心特性
- 多模态支持:文本、图片、文件处理
- 本地推理:所有推理在本机 GPU 完成
- 联网搜索:实时网络搜索和网页抓取
- 图片识别:上传图片直接提问
- 文件读取:只读浏览本地文件
- 思维链:内置推理过程展示
- OpenAI 兼容:提供兼容 API 接口
- 一键启动:简单易用的启动脚本
技术栈
- Qwen3.5-9B - 通义千问多模态大模型
- llama.cpp - 高性能 GGUF 推理引擎
- Python 3.10+ - 运行环境
- NVIDIA GPU - 加速推理(≥8GB 显存)
安装指南
前置要求
- Windows 10/11
- NVIDIA 显卡(≥8GB 显存)
- Python 3.10+
快速安装
bash
# 1. 首次安装(下载约 6GB 模型)
双击 bootstrap.bat
# 2. 启动服务
.\start_8080_toolhub_stack.cmd start
# 3. 浏览器访问
http://127.0.0.1:8080
# 停止服务
.\start_8080_toolhub_stack.cmd stop每次启动需要 30-60 秒加载模型。
其他安装方式
Docker Compose:
bash
docker compose up --buildWSL:
bash
./install.sh
./start_8080_toolhub_stack.sh startQ8 量化(≥12GB 显存):
bash
双击 bootstrap_q8.bat快速开始
Web 界面使用
bash
# 1. 启动服务
.\start_8080_toolhub_stack.cmd start
# 2. 浏览器打开
http://127.0.0.1:8080
# 3. 开始对话
- 文本对话
- 上传图片提问
- 选择本地文件
- 使用联网搜索API 调用
bash
# OpenAI 兼容 API
curl http://127.0.0.1:8080/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "qwen",
"messages": [{"role": "user", "content": "Hello"}]
}'功能详解
1. 联网搜索
- 实时网络搜索
- 抓取网页内容
- 提炼摘要并附来源
- 多源信息整合
2. 图片识别
- 上传图片直接提问
- 支持局部放大
- 以图搜图功能
- 多图片对比
3. 文件读取
- 只读浏览本地文件
- AI 帮助查看文档
- 日志文件分析
- 代码文件解读
4. 思维链
- 内置推理过程
- 复杂问题分解
- 步骤化思考
- 可展开推理链
5. OpenAI 兼容 API
- 标准 OpenAI API 格式
- 可对接任意兼容客户端
- 支持 stream 模式
- 函数调用支持
使用示例
场景 1:联网搜索
text
用户:搜索最新的 Python AI 框架
AI:[执行搜索] 根据搜索结果,目前最新的 Python AI 框架包括...
来源:[1] https://example.com1
[2] https://example.com2场景 2:图片识别
text
用户:[上传图片] 这是什么?
AI:这是一张[详细描述],包含了...场景 3:文件分析
text
用户:帮我分析 /path/to/log.txt
AI:[读取文件] 日志文件显示...主要错误是...场景 4:API 集成
python
import openai
openai.api_base = "http://127.0.0.1:8080/v1"
openai.api_key = "any"
response = openai.ChatCompletion.create(
model="qwen",
messages=[{"role": "user", "content": "Hello"}]
)配置说明
模型选择
- 默认:Q4 量化(约 6GB)
- Q8 量化:≥12GB 显存
- 自动切换:根据显存自动选择
服务端口
- 默认端口:8080
- API 路径:/v1
- Web 界面:根路径
性能优化
- GPU 加速
- 模型量化
- 批处理
- 流式输出
应用场景
- 本地助手:完全本地化的 AI 助手
- 文档分析:快速分析本地文档
- 图片处理:图片识别和理解
- 代码辅助:代码阅读和生成
- 知识管理:本地知识库查询
- API 服务:为其他应用提供 AI 能力
系统要求
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10 | Windows 11 |
| 显卡 | NVIDIA GTX 1060 (6GB) | NVIDIA RTX 3060 (12GB) |
| 显存 | 8 GB | 12 GB |
| 内存 | 16 GB | 32 GB |
| 存储 | 10 GB 可用空间 | SSD 20 GB |
| Python | 3.10+ | 3.11 |
注意事项
- 首次启动需要下载模型(约 6GB)
- 每次启动需要 30-60 秒加载模型
- 确保 GPU 驱动已更新
- 建议使用 SSD 存储模型
- 显存不足会自动降级
文档
- 详细介绍 - 安装、启动、配置
- 常见问题 - 排障指引
- Docker Compose - 容器化部署
致谢
项目链接
- GitHub 仓库:https://github.com/chixi4/Qwen3.5-9B-ToolHub
- 开源协议:MIT License
分享: