ByteNoteByteNote

字节笔记本

2026年3月13日

Qwen3.5-9B ToolHub:本地多模态 AI 一体化方案

API中转
¥120

本文介绍 Qwen3.5-9B ToolHub,一个基于 Qwen3.5-9B 多模态模型的本地一体化部署方案。项目支持联网搜索、图片识别、文件读取等功能,提供 OpenAI 兼容的 API 接口,所有推理在本机 GPU 完成,是构建本地 AI 助手的理想选择。

项目简介

Qwen3.5-9B ToolHub 是一个开源的本地 AI 部署方案,基于通义千问 Qwen3.5-9B 多模态大模型。项目采用 llama.cpp 高性能推理引擎,支持 Windows 10/11 系统,需要 NVIDIA 显卡(≥8GB 显存),提供完整的工具调用能力和多模态支持。

核心特性

  • 多模态支持:文本、图片、文件处理
  • 本地推理:所有推理在本机 GPU 完成
  • 联网搜索:实时网络搜索和网页抓取
  • 图片识别:上传图片直接提问
  • 文件读取:只读浏览本地文件
  • 思维链:内置推理过程展示
  • OpenAI 兼容:提供兼容 API 接口
  • 一键启动:简单易用的启动脚本

技术栈

  • Qwen3.5-9B - 通义千问多模态大模型
  • llama.cpp - 高性能 GGUF 推理引擎
  • Python 3.10+ - 运行环境
  • NVIDIA GPU - 加速推理(≥8GB 显存)

安装指南

前置要求

  • Windows 10/11
  • NVIDIA 显卡(≥8GB 显存)
  • Python 3.10+

快速安装

bash
# 1. 首次安装(下载约 6GB 模型)
双击 bootstrap.bat

# 2. 启动服务
.\start_8080_toolhub_stack.cmd start

# 3. 浏览器访问
http://127.0.0.1:8080

# 停止服务
.\start_8080_toolhub_stack.cmd stop

每次启动需要 30-60 秒加载模型。

其他安装方式

Docker Compose:

bash
docker compose up --build

WSL:

bash
./install.sh
./start_8080_toolhub_stack.sh start

Q8 量化(≥12GB 显存):

bash
双击 bootstrap_q8.bat

快速开始

Web 界面使用

bash
# 1. 启动服务
.\start_8080_toolhub_stack.cmd start

# 2. 浏览器打开
http://127.0.0.1:8080

# 3. 开始对话
- 文本对话
- 上传图片提问
- 选择本地文件
- 使用联网搜索

API 调用

bash
# OpenAI 兼容 API
curl http://127.0.0.1:8080/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "qwen",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

功能详解

1. 联网搜索

  • 实时网络搜索
  • 抓取网页内容
  • 提炼摘要并附来源
  • 多源信息整合

2. 图片识别

  • 上传图片直接提问
  • 支持局部放大
  • 以图搜图功能
  • 多图片对比

3. 文件读取

  • 只读浏览本地文件
  • AI 帮助查看文档
  • 日志文件分析
  • 代码文件解读

4. 思维链

  • 内置推理过程
  • 复杂问题分解
  • 步骤化思考
  • 可展开推理链

5. OpenAI 兼容 API

  • 标准 OpenAI API 格式
  • 可对接任意兼容客户端
  • 支持 stream 模式
  • 函数调用支持

使用示例

场景 1:联网搜索

text
用户:搜索最新的 Python AI 框架
AI:[执行搜索] 根据搜索结果,目前最新的 Python AI 框架包括...
来源:[1] https://example.com1
      [2] https://example.com2

场景 2:图片识别

text
用户:[上传图片] 这是什么?
AI:这是一张[详细描述],包含了...

场景 3:文件分析

text
用户:帮我分析 /path/to/log.txt
AI:[读取文件] 日志文件显示...主要错误是...

场景 4:API 集成

python
import openai

openai.api_base = "http://127.0.0.1:8080/v1"
openai.api_key = "any"

response = openai.ChatCompletion.create(
    model="qwen",
    messages=[{"role": "user", "content": "Hello"}]
)

配置说明

模型选择

  • 默认:Q4 量化(约 6GB)
  • Q8 量化:≥12GB 显存
  • 自动切换:根据显存自动选择

服务端口

  • 默认端口:8080
  • API 路径:/v1
  • Web 界面:根路径

性能优化

  • GPU 加速
  • 模型量化
  • 批处理
  • 流式输出

应用场景

  • 本地助手:完全本地化的 AI 助手
  • 文档分析:快速分析本地文档
  • 图片处理:图片识别和理解
  • 代码辅助:代码阅读和生成
  • 知识管理:本地知识库查询
  • API 服务:为其他应用提供 AI 能力

系统要求

组件最低要求推荐配置
操作系统Windows 10Windows 11
显卡NVIDIA GTX 1060 (6GB)NVIDIA RTX 3060 (12GB)
显存8 GB12 GB
内存16 GB32 GB
存储10 GB 可用空间SSD 20 GB
Python3.10+3.11

注意事项

  • 首次启动需要下载模型(约 6GB)
  • 每次启动需要 30-60 秒加载模型
  • 确保 GPU 驱动已更新
  • 建议使用 SSD 存储模型
  • 显存不足会自动降级

文档

致谢

  • Qwen3.5 - 通义千问多模态大模型
  • llama.cpp - 高性能 GGUF 推理引擎

项目链接

分享: