Qwen3.5-9B ToolHub：本地多模态 AI 一体化方案

本文介绍 Qwen3.5-9B ToolHub，一个基于 Qwen3.5-9B 多模态模型的本地一体化部署方案。项目支持联网搜索、图片识别、文件读取等功能，提供 OpenAI 兼容的 API 接口，所有推理在本机 GPU 完成，是构建本地 AI 助手的理想选择。

项目简介

Qwen3.5-9B ToolHub 是一个开源的本地 AI 部署方案，基于通义千问 Qwen3.5-9B 多模态大模型。项目采用 llama.cpp 高性能推理引擎，支持 Windows 10/11 系统，需要 NVIDIA 显卡（≥8GB 显存），提供完整的工具调用能力和多模态支持。

核心特性

多模态支持：文本、图片、文件处理
本地推理：所有推理在本机 GPU 完成
联网搜索：实时网络搜索和网页抓取
图片识别：上传图片直接提问
文件读取：只读浏览本地文件
思维链：内置推理过程展示
OpenAI 兼容：提供兼容 API 接口
一键启动：简单易用的启动脚本

技术栈

Qwen3.5-9B - 通义千问多模态大模型
llama.cpp - 高性能 GGUF 推理引擎
Python 3.10+ - 运行环境
NVIDIA GPU - 加速推理（≥8GB 显存）

安装指南

前置要求

Windows 10/11
NVIDIA 显卡（≥8GB 显存）
Python 3.10+

快速安装

bash

# 1. 首次安装（下载约 6GB 模型）
双击 bootstrap.bat

# 2. 启动服务
.\start_8080_toolhub_stack.cmd start

# 3. 浏览器访问
http://127.0.0.1:8080

# 停止服务
.\start_8080_toolhub_stack.cmd stop

每次启动需要 30-60 秒加载模型。

其他安装方式

Docker Compose：

bash

docker compose up --build

WSL：

bash

./install.sh
./start_8080_toolhub_stack.sh start

Q8 量化（≥12GB 显存）：

bash

双击 bootstrap_q8.bat

快速开始

Web 界面使用

bash

# 1. 启动服务
.\start_8080_toolhub_stack.cmd start

# 2. 浏览器打开
http://127.0.0.1:8080

# 3. 开始对话
- 文本对话
- 上传图片提问
- 选择本地文件
- 使用联网搜索

API 调用

bash

# OpenAI 兼容 API
curl http://127.0.0.1:8080/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "qwen",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

功能详解

1. 联网搜索

实时网络搜索
抓取网页内容
提炼摘要并附来源
多源信息整合

2. 图片识别

上传图片直接提问
支持局部放大
以图搜图功能
多图片对比

3. 文件读取

只读浏览本地文件
AI 帮助查看文档
日志文件分析
代码文件解读

4. 思维链

内置推理过程
复杂问题分解
步骤化思考
可展开推理链

5. OpenAI 兼容 API

标准 OpenAI API 格式
可对接任意兼容客户端
支持 stream 模式
函数调用支持

使用示例

场景 1：联网搜索

text

用户：搜索最新的 Python AI 框架
AI：[执行搜索] 根据搜索结果，目前最新的 Python AI 框架包括...
来源：[1] https://example.com1
      [2] https://example.com2

场景 2：图片识别

text

用户：[上传图片] 这是什么？
AI：这是一张[详细描述]，包含了...

场景 3：文件分析

text

用户：帮我分析 /path/to/log.txt
AI：[读取文件] 日志文件显示...主要错误是...

场景 4：API 集成

python

import openai

openai.api_base = "http://127.0.0.1:8080/v1"
openai.api_key = "any"

response = openai.ChatCompletion.create(
    model="qwen",
    messages=[{"role": "user", "content": "Hello"}]
)

配置说明

模型选择

默认：Q4 量化（约 6GB）
Q8 量化：≥12GB 显存
自动切换：根据显存自动选择

服务端口

默认端口：8080
API 路径：/v1
Web 界面：根路径

性能优化

GPU 加速
模型量化
批处理
流式输出

应用场景

本地助手：完全本地化的 AI 助手
文档分析：快速分析本地文档
图片处理：图片识别和理解
代码辅助：代码阅读和生成
知识管理：本地知识库查询
API 服务：为其他应用提供 AI 能力

系统要求

组件	最低要求	推荐配置
操作系统	Windows 10	Windows 11
显卡	NVIDIA GTX 1060 (6GB)	NVIDIA RTX 3060 (12GB)
显存	8 GB	12 GB
内存	16 GB	32 GB
存储	10 GB 可用空间	SSD 20 GB
Python	3.10+	3.11

注意事项

首次启动需要下载模型（约 6GB）
每次启动需要 30-60 秒加载模型
确保 GPU 驱动已更新
建议使用 SSD 存储模型
显存不足会自动降级

文档

详细介绍 - 安装、启动、配置
常见问题 - 排障指引
Docker Compose - 容器化部署

致谢

Qwen3.5 - 通义千问多模态大模型
llama.cpp - 高性能 GGUF 推理引擎

项目链接

GitHub 仓库：https://github.com/chixi4/Qwen3.5-9B-ToolHub
开源协议：MIT License

字节笔记本

Qwen3.5-9B ToolHub：本地多模态 AI 一体化方案

项目简介

核心特性

技术栈

安装指南

前置要求

快速安装

其他安装方式

快速开始

Web 界面使用

API 调用

功能详解

1. 联网搜索

2. 图片识别

3. 文件读取

4. 思维链

5. OpenAI 兼容 API

使用示例

场景 1：联网搜索

场景 2：图片识别

场景 3：文件分析

场景 4：API 集成

配置说明

模型选择

服务端口

性能优化

应用场景

系统要求

注意事项

文档

致谢

项目链接