Hermes Agent AI Providers 全览：支持的模型提供商与配置参考

本文全面介绍 Hermes Agent 支持的 AI 模型提供商，从云端 API（如 OpenRouter、Anthropic）到自托管端点（如 Ollama、vLLM），再到高级路由和回退配置。你需要至少配置一个提供商才能使用 Hermes。

推理提供商

你需要至少一种方式连接到 LLM。使用 hermes model 交互式切换提供商和模型，或直接配置：

提供商	配置方式
Nous Portal	`hermes model`（OAuth，订阅制）
OpenAI Codex	`hermes model`（ChatGPT OAuth，使用 Codex 模型）
GitHub Copilot	`hermes model`（OAuth 设备码流程，`COPILOT_GITHUB_TOKEN`、`GH_TOKEN` 或 `gh auth token`）
GitHub Copilot ACP	`hermes model`（启动本地 `copilot --acp --stdio`）
Anthropic	`hermes model`（Claude Max + 额外用量额度通过 OAuth；也支持 Anthropic API Key 或手动 setup-token — 见下方说明）
OpenRouter	`OPENROUTER_API_KEY` 写入 `~/.hermes/.env`
NovitaAI	`NOVITA_API_KEY` 写入 `~/.hermes/.env`（provider: `novita`，200+ 模型，Model API、Agent Sandbox、GPU Cloud）
AI Gateway	`AI_GATEWAY_API_KEY` 写入 `~/.hermes/.env`（provider: `ai-gateway`）
z.ai / GLM	`GLM_API_KEY` 写入 `~/.hermes/.env`（provider: `zai`）
Kimi / Moonshot	`KIMI_API_KEY` 写入 `~/.hermes/.env`（provider: `kimi-coding`）
Kimi / Moonshot（中国）	`KIMI_CN_API_KEY` 写入 `~/.hermes/.env`（provider: `kimi-coding-cn`；别名：`kimi-cn`、`moonshot-cn`）
Arcee AI	`ARCEEAI_API_KEY` 写入 `~/.hermes/.env`（provider: `arcee`；别名：`arcee-ai`、`arceeai`）
GMI Cloud	`GMI_API_KEY` 写入 `~/.hermes/.env`（provider: `gmi`；别名：`gmi-cloud`、`gmicloud`）
MiniMax	`MINIMAX_API_KEY` 写入 `~/.hermes/.env`（provider: `minimax`）
MiniMax 中国	`MINIMAX_CN_API_KEY` 写入 `~/.hermes/.env`（provider: `minimax-cn`）
阿里云	`DASHSCOPE_API_KEY` 写入 `~/.hermes/.env`（provider: `alibaba`）
阿里云 Coding Plan	`DASHSCOPE_API_KEY`（provider: `alibaba-coding-plan`，别名：`alibaba_coding`）— 独立计费 SKU，不同端点
Kilo Code	`KILOCODE_API_KEY` 写入 `~/.hermes/.env`（provider: `kilocode`）
小米 MiMo	`XIAOMI_API_KEY` 写入 `~/.hermes/.env`（provider: `xiaomi`，别名：`mimo`、`xiaomi-mimo`）
腾讯 TokenHub	`TOKENHUB_API_KEY` 写入 `~/.hermes/.env`（provider: `tencent-tokenhub`，别名：`tencent`、`tokenhub`、`tencentmaas`）
OpenCode Zen	`OPENCODE_ZEN_API_KEY` 写入 `~/.hermes/.env`（provider: `opencode-zen`）
OpenCode Go	`OPENCODE_GO_API_KEY` 写入 `~/.hermes/.env`（provider: `opencode-go`）
DeepSeek	`DEEPSEEK_API_KEY` 写入 `~/.hermes/.env`（provider: `deepseek`）
Hugging Face	`HF_TOKEN` 写入 `~/.hermes/.env`（provider: `huggingface`，别名：`hf`）
Google / Gemini	`GOOGLE_API_KEY`（或 `GEMINI_API_KEY`）写入 `~/.hermes/.env`（provider: `gemini`）
Google Gemini（OAuth）	`hermes model` → "Google Gemini (OAuth)"（provider: `google-gemini-cli`，支持免费层，浏览器 PKCE 登录）
LM Studio	`hermes model` → "LM Studio"（provider: `lmstudio`，可选 `LM_API_KEY`）
自定义端点	`hermes model` → 选择 "Custom endpoint"（保存在 `config.yaml` 中）

关于官方 API Key 路径，请参阅 Google Gemini 指南。

模型键别名提示：在 model: 配置段中，你可以使用 default: 或 model: 作为模型 ID 的键名。model: { default: my-model } 和 model: { model: my-model } 效果完全相同。

Google Gemini 通过 OAuth（`google-gemini-cli`）

google-gemini-cli 提供商使用 Google 的 Cloud Code Assist 后端 — 与 Google 自己的 gemini-cli 工具使用的相同 API。支持免费层（个人账户有慷慨的每日配额）和付费层（通过 GCP 项目的 Standard/Enterprise）。

快速开始：

bash

hermes model
# → 选择 "Google Gemini (OAuth)"
# → 查看策略警告，确认
# → 浏览器打开 accounts.google.com，登录
# → 完成 — Hermes 在首次请求时自动配置你的免费层

Hermes 默认搭载 Google 的公开 gemini-cli 桌面 OAuth 客户端 — 与 Google 开源 gemini-cli 中包含的凭证相同。桌面 OAuth 客户端不是机密的（PKCE 提供安全保障）。你无需安装 gemini-cli 或注册自己的 GCP OAuth 客户端。

认证工作原理：

使用 PKCE Authorization Code 流程连接 accounts.google.com
浏览器回调地址为 http://127.0.0.1:8085/oauth2callback（如果端口被占用，自动使用临时端口）
Token 存储在 ~/.hermes/auth/google_oauth.json（chmod 0600，原子写入，跨进程 fcntl 锁）
过期前 60 秒自动刷新
无头环境（SSH、HERMES_HEADLESS=1）→ 粘贴模式回退
飞行中刷新去重 — 两个并发请求不会双重刷新
invalid_grant（refresh token 被撤销）→ 凭证文件被清除，提示用户重新登录

推理工作原理：

流量发送到 https://cloudcode-pa.googleapis.com/v1internal:generateContent（或 :streamGenerateContent?alt=sse 用于流式），而非付费的 v1beta/openai 端点
请求体封装为 {project, model, user_prompt_id, request}
OpenAI 格式的 messages[]、tools[]、tool_choice 会被转换为 Gemini 原生的 contents[]、tools[].functionDeclarations、toolConfig 格式
响应转换回 OpenAI 格式，使 Hermes 的其余部分无需修改即可工作

层级与项目 ID：

你的情况	操作方式
个人 Google 账户，想使用免费层	无需操作 — 登录即可开始对话
Workspace / Standard / Enterprise 账户	设置 `HERMES_GEMINI_PROJECT_ID` 或 `GOOGLE_CLOUD_PROJECT` 为你的 GCP 项目 ID
VPC-SC 保护的机构	Hermes 检测到 `SECURITY_POLICY_VIOLATED` 并自动强制使用 `standard-tier`

免费层在首次使用时自动配置一个 Google 管理的项目。无需 GCP 设置。

配额监控：

/gquota

显示每个模型的剩余 Code Assist 配额及进度条：

text

Gemini Code Assist quota  (project: 123-abc)

  gemini-2.5-pro                      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░   85%
  gemini-2.5-flash [input]            ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░   92%

策略风险警告：Google 认为在第三方软件中使用 Gemini CLI OAuth 客户端违反策略。部分用户报告了账户限制。如需最低风险体验，请改用 gemini 提供商的 API Key。Hermes 在 OAuth 开始前会显示明确警告并要求确认。

自定义 OAuth 客户端（可选）：

如果你想注册自己的 Google OAuth 客户端 — 例如将配额和同意范围限定在自己的 GCP 项目内 — 设置：

bash

HERMES_GEMINI_CLIENT_ID=your-client.apps.googleusercontent.com
HERMES_GEMINI_CLIENT_SECRET=...   # Desktop 客户端可选

在 console.cloud.google.com/apis/credentials 注册一个 Desktop app OAuth 客户端，并启用 Generative Language API。

Codex 说明：OpenAI Codex 提供商通过设备码认证（打开 URL，输入代码）。Hermes 将生成的凭证存储在 ~/.hermes/auth.json 中的自有认证存储中，并可在存在时导入现有 Codex CLI 凭证（~/.codex/auth.json）。无需安装 Codex CLI。

即使使用 Nous Portal、Codex 或自定义端点，某些工具（视觉、网页摘要、MoA）仍使用单独的"辅助"模型。默认情况下（auxiliary.*.provider: "auto"），Hermes 将这些任务路由到你的主聊天模型 — 即在 hermes model 中选择的模型。你可以单独覆盖每个任务，将其路由到更便宜/更快的模型（例如 OpenRouter 上的 Gemini Flash）— 参见辅助模型。

Nous Tool Gateway 提示：付费 Nous Portal 订阅者还可使用 Tool Gateway — 通过订阅路由的网页搜索、图像生成、TTS 和浏览器自动化。无需额外 API Key。在 hermes model 设置过程中会自动提供，也可稍后使用 hermes tools 启用。

两个模型管理命令

Hermes 有两个模型命令，用途不同：

命令	运行位置	功能
`hermes model`	终端（在任何会话之外）	完整设置向导 — 添加提供商、运行 OAuth、输入 API Key、配置端点
`/model`	Hermes 聊天会话内	在已配置的提供商和模型之间快速切换

如果你尝试切换到尚未设置的提供商（例如只配置了 OpenRouter 却想使用 Anthropic），你需要使用 hermes model，而非 /model。先退出会话（Ctrl+C 或 /quit），运行 hermes model，完成提供商设置，然后开始新会话。

Anthropic（原生）

直接通过 Anthropic API 使用 Claude 模型 — 无需 OpenRouter 代理。支持三种认证方式：

需要 Claude Max "额外用量" 额度：当你通过 hermes model → Anthropic OAuth 认证时（或通过 hermes auth add anthropic --type oauth），Hermes 以 Claude Code 身份路由到你的 Anthropic 账户。只有在你拥有 Claude Max 计划并购买了额外用量额度时才能使用。 基础 Max 计划配额（Claude Code 默认包含的用量）不会被 Hermes 消耗 — 只消耗你额外添加的超额额度。Claude Pro 订阅者无法使用此路径。

如果你没有 Max + 额外额度，请改用 ANTHROPIC_API_KEY — 请求按该 Key 所属组织的标准 API 定价按 Token 计费，与任何 Claude 订阅无关。

bash

# 使用 API Key（按 Token 计费）
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6

# 推荐方式：通过 `hermes model` 认证
# Hermes 在可用时直接使用 Claude Code 的凭证存储
hermes model

# 手动覆盖使用 setup-token（回退/传统方式）
export ANTHROPIC_TOKEN=***  # setup-token 或手动 OAuth token
hermes chat --provider anthropic

# 自动检测 Claude Code 凭证（如果你已使用 Claude Code）
hermes chat --provider anthropic  # 自动读取 Claude Code 凭证文件

当你通过 hermes model 选择 Anthropic OAuth 时，Hermes 优先使用 Claude Code 自身的凭证存储，而非将 token 复制到 ~/.hermes/.env。这样保持了可刷新的 Claude 凭证的可刷新性。

或者永久设置：

yaml

model:
  provider: "anthropic"
  default: "claude-sonnet-4-6"

别名：--provider claude 和 --provider claude-code 也可作为 --provider anthropic 的简写。

GitHub Copilot

Hermes 将 GitHub Copilot 作为一等提供商支持，有两种模式：

copilot — 直接 Copilot API（推荐）。使用你的 GitHub Copilot 订阅通过 Copilot API 访问 GPT-5.x、Claude、Gemini 等模型。

bash

hermes chat --provider copilot --model gpt-5.4

认证选项（按此顺序检查）：

COPILOT_GITHUB_TOKEN 环境变量
GH_TOKEN 环境变量
GITHUB_TOKEN 环境变量
gh auth token CLI 回退

如果未找到 token，hermes model 提供 OAuth 设备码登录 — 与 Copilot CLI 和 opencode 使用的流程相同。

Token 类型警告：Copilot API 不支持经典 Personal Access Token（ghp_*）。支持的 Token 类型：

类型	前缀	获取方式
OAuth token	`gho_`	`hermes model` → GitHub Copilot → Login with GitHub
Fine-grained PAT	`github_pat_`	GitHub Settings → Developer settings → Fine-grained tokens（需要 Copilot Requests 权限）
GitHub App token	`ghu_`	通过 GitHub App 安装获取

如果你的 gh auth token 返回 ghp_* token，请使用 hermes model 通过 OAuth 认证。

Hermes 中 Copilot 认证行为：Hermes 将受支持的 GitHub token（gho_*、github_pat_* 或 ghu_*）直接发送到 api.githubcopilot.com，并包含 Copilot 特定头部（Editor-Version、Copilot-Integration-Id、Openai-Intent、x-initiator）。

在 HTTP 401 时，Hermes 现在在回退前执行一次性凭证恢复：

通过正常优先级链重新解析 token（COPILOT_GITHUB_TOKEN → GH_TOKEN → GITHUB_TOKEN → gh auth token）

使用刷新的头部重建共享 OpenAI 客户端

重试请求一次

某些较旧的社区代理使用 api.github.com/copilot_internal/v2/token 交换流程。该端点对某些账户类型可能不可用（返回 404）。因此 Hermes 将直接 token 认证作为主要路径，依赖运行时凭证刷新 + 重试来保证健壮性。

API 路由：GPT-5+ 模型（gpt-5-mini 除外）自动使用 Responses API。所有其他模型（GPT-4o、Claude、Gemini 等）使用 Chat Completions。模型从实时 Copilot 目录自动检测。

copilot-acp — Copilot ACP 代理后端。将本地 Copilot CLI 作为子进程启动：

bash

hermes chat --provider copilot-acp --model copilot-acp
# 需要 GitHub Copilot CLI 在 PATH 中，且已有 `copilot login` 会话

永久配置：

yaml

model:
  provider: "copilot"
  default: "gpt-5.4"

环境变量	说明
`COPILOT_GITHUB_TOKEN`	Copilot API 的 GitHub token（最高优先级）
`HERMES_COPILOT_ACP_COMMAND`	覆盖 Copilot CLI 二进制路径（默认：`copilot`）
`HERMES_COPILOT_ACP_ARGS`	覆盖 ACP 参数（默认：`--acp --stdio`）

一等 API Key 提供商

这些提供商有内置支持，使用专用 provider ID。设置 API Key 并使用 --provider 选择：

bash

# NovitaAI Model API
hermes chat --provider novita --model moonshotai/kimi-k2.5
# 需要：NOVITA_API_KEY 写入 ~/.hermes/.env

# z.ai / 智谱 GLM
hermes chat --provider zai --model glm-5
# 需要：GLM_API_KEY 写入 ~/.hermes/.env

# Kimi / Moonshot AI（国际：api.moonshot.ai）
hermes chat --provider kimi-coding --model kimi-for-coding
# 需要：KIMI_API_KEY 写入 ~/.hermes/.env

# Kimi / Moonshot AI（中国：api.moonshot.cn）
hermes chat --provider kimi-coding-cn --model kimi-k2.5
# 需要：KIMI_CN_API_KEY 写入 ~/.hermes/.env

# MiniMax（全球端点）
hermes chat --provider minimax --model MiniMax-M2.7
# 需要：MINIMAX_API_KEY 写入 ~/.hermes/.env

# MiniMax（中国端点）
hermes chat --provider minimax-cn --model MiniMax-M2.7
# 需要：MINIMAX_CN_API_KEY 写入 ~/.hermes/.env

# 阿里云 / DashScope（Qwen 模型）
hermes chat --provider alibaba --model qwen3.5-plus
# 需要：DASHSCOPE_API_KEY 写入 ~/.hermes/.env

# 小米 MiMo
hermes chat --provider xiaomi --model mimo-v2-pro
# 需要：XIAOMI_API_KEY 写入 ~/.hermes/.env

# 腾讯 TokenHub（Hy3 Preview）
hermes chat --provider tencent-tokenhub --model hy3-preview
# 需要：TOKENHUB_API_KEY 写入 ~/.hermes/.env

# Arcee AI（Trinity 模型）
hermes chat --provider arcee --model trinity-large-thinking
# 需要：ARCEEAI_API_KEY 写入 ~/.hermes/.env

# GMI Cloud
# 使用 GMI 的 /v1/models 端点返回的确切模型 ID。
hermes chat --provider gmi --model zai-org/GLM-5.1-FP8
# 需要：GMI_API_KEY 写入 ~/.hermes/.env

或在 config.yaml 中永久设置提供商：

yaml

model:
  provider: "gmi"
  default: "zai-org/GLM-5.1-FP8"

Base URL 可通过 NOVITA_BASE_URL、GLM_BASE_URL、KIMI_BASE_URL、MINIMAX_BASE_URL、MINIMAX_CN_BASE_URL、DASHSCOPE_BASE_URL、XIAOMI_BASE_URL、GMI_BASE_URL 或 TOKENHUB_BASE_URL 环境变量覆盖。

Z.AI 端点自动检测说明：使用 Z.AI / GLM 提供商时，Hermes 自动探测多个端点（全球、中国、编程变体）以找到接受你 API Key 的端点。无需手动设置 GLM_BASE_URL — 可用端点会被自动检测并缓存。

xAI（Grok）— Responses API + Prompt Caching

xAI 通过 Responses API（codex_responses 传输层）接入，为 Grok 4 模型提供自动推理支持 — 无需 reasoning_effort 参数，服务器默认推理。在 ~/.hermes/.env 中设置 XAI_API_KEY，并在 hermes model 中选择 xAI，或直接在 /model 中输入 grok 作为快捷方式，如 grok-4-1-fast-reasoning。

SuperGrok 订阅者可以通过浏览器 OAuth 登录，无需使用 API Key — 在 hermes model 中选择 xAI Grok OAuth (SuperGrok Subscription)，或运行 hermes auth add xai-oauth。同一 OAuth bearer token 会被直接到 xAI 的工具（TTS、图像生成、视频生成、转录）自动复用。完整流程参见 xAI Grok OAuth 指南 — 如果 Hermes 运行在远程主机上，还需参阅 SSH/远程主机上的 OAuth 了解所需的 ssh -L 隧道。

当使用 xAI 作为提供商时（任何包含 x.ai 的 base URL），Hermes 通过在每个 API 请求中发送 x-grok-conv-id 头部自动启用 prompt caching。这将会话中的请求路由到同一服务器，使 xAI 基础设施能复用缓存的系统 prompt 和对话历史。

无需配置 — 当检测到 xAI 端点且有可用会话 ID 时，缓存自动激活。这减少了多轮对话的延迟和成本。

xAI 还提供专用 TTS 端点（/v1/tts）。在 hermes tools → Voice & TTS 中选择 xAI TTS，或参见语音与 TTS 页面了解配置。

NovitaAI

NovitaAI 是面向开发者和 Agent 的 AI 原生云平台。其三条产品线为：Model API（200+ 模型）、Agent Sandbox（构建和运行 AI Agent）和 GPU Cloud（可扩展计算），全部从一个平台提供。

bash

# 使用任意可用模型
hermes chat --provider novita --model moonshotai/kimi-k2.5
# 需要：NOVITA_API_KEY 写入 ~/.hermes/.env

# 短别名
hermes chat --provider novita-ai --model deepseek/deepseek-v3-0324

或在 config.yaml 中永久设置：

yaml

model:
  provider: "novita"
  default: "moonshotai/kimi-k2.5"
  base_url: "https://api.novita.ai/openai/v1"

在 novita.ai/settings/key-management 获取你的 API Key。Base URL 可通过 NOVITA_BASE_URL 覆盖。

Ollama Cloud — 托管 Ollama 模型，OAuth + API Key

Ollama Cloud 托管与本地 Ollama 相同的开源模型目录，但无需 GPU。在 hermes model 中选择 Ollama Cloud，粘贴从 ollama.com/settings/keys 获取的 API Key，Hermes 会自动发现可用模型。

bash

hermes model
# → 选择 "Ollama Cloud"
# → 粘贴你的 OLLAMA_API_KEY
# → 从发现的模型中选择（gpt-oss:120b, glm-4.6:cloud, qwen3-coder:480b-cloud 等）

或直接配置 config.yaml：

yaml

model:
  provider: "ollama-cloud"
  default: "gpt-oss:120b"

模型目录从 ollama.com/v1/models 动态获取并缓存一小时。model:tag 格式（如 qwen3-coder:480b-cloud）在标准化过程中保持不变 — 不要使用破折号。

Ollama Cloud 与本地 Ollama 的区别：两者都使用相同的 OpenAI 兼容 API。Cloud 是一等提供商（--provider ollama-cloud，OLLAMA_API_KEY）；本地 Ollama 通过自定义端点流程访问（base URL http://localhost:11434/v1，无需 Key）。大型模型无法本地运行时使用 Cloud；注重隐私或离线工作时使用本地。

AWS Bedrock

通过 AWS Bedrock 使用 Anthropic Claude、Amazon Nova、DeepSeek v3.2、Meta Llama 4 等模型。使用 AWS SDK（boto3）凭证链 — 无需 API Key，只需标准 AWS 认证。

bash

# 最简方式 — ~/.aws/credentials 中的命名配置
hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

# 或使用显式环境变量
AWS_PROFILE=myprofile AWS_REGION=us-east-1 hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

或永久配置 config.yaml：

yaml

model:
  provider: "bedrock"
  default: "us.anthropic.claude-sonnet-4-6"
bedrock:
  region: "us-east-1"          # 或设置 AWS_REGION
  # profile: "myprofile"       # 或设置 AWS_PROFILE
  # discovery: true            # 从 IAM 自动发现区域
  # guardrail:                 # 可选 Bedrock Guardrails
  #   guardrail_identifier: "your-guardrail-id"
  #   guardrail_version: "DRAFT"

认证使用标准 boto3 链：显式 AWS_ACCESS_KEY_ID/AWS_SECRET_ACCESS_KEY、~/.aws/credentials 中的 AWS_PROFILE、EC2/ECS/Lambda 上的 IAM 角色、IMDS 或 SSO。如果你已通过 AWS CLI 认证，则无需任何环境变量。

Bedrock 底层使用 Converse API — 请求被转换为 Bedrock 的模型无关格式，因此相同配置适用于 Claude、Nova、DeepSeek 和 Llama 模型。仅在你调用非默认区域端点时设置 BEDROCK_BASE_URL。

参见 AWS Bedrock 指南了解 IAM 设置、区域选择和跨区域推理的完整说明。

Qwen Portal（OAuth）

阿里巴巴 Qwen Portal，支持基于浏览器的 OAuth 登录。在 hermes model 中选择 Qwen OAuth (Portal)，通过浏览器登录，Hermes 持久化 refresh token。

bash

hermes model
# → 选择 "Qwen OAuth (Portal)"
# → 浏览器打开；使用你的阿里云账号登录
# → 确认 — 凭证保存到 ~/.hermes/auth.json

hermes chat   # 使用 portal.qwen.ai/v1 端点

或配置 config.yaml：

yaml

model:
  provider: "qwen-oauth"
  default: "qwen3-coder-plus"

仅在 portal 端点迁移时设置 HERMES_QWEN_BASE_URL（默认：https://portal.qwen.ai/v1）。

Qwen OAuth 与 DashScope（阿里云）的区别：qwen-oauth 使用面向消费者的 Qwen Portal 与 OAuth 登录 — 适合个人用户。alibaba 提供商使用 DashScope 的企业 API 与 DASHSCOPE_API_KEY — 适合程序化/生产工作负载。两者都路由到 Qwen 系列模型，但位于不同端点。

阿里云 Coding Plan

如果你订阅了阿里巴巴的 Coding Plan（与标准 DashScope API 访问分开的定价 SKU），Hermes 将其暴露为独立的一等提供商：alibaba-coding-plan。端点：https://coding-intl.dashscope.aliyuncs.com/v1。它与常规 alibaba 提供商一样兼容 OpenAI，但使用不同的 base URL 和计费面。

yaml

model:
  provider: alibaba_coding     # alibaba-coding-plan 的别名
  model: qwen3-coder-plus

或从 CLI：

bash

hermes chat --provider alibaba_coding --model qwen3-coder-plus

alibaba_coding 使用与你 alibaba 条目相同的 DASHSCOPE_API_KEY — 无需单独的 Key，只是不同的路由目标。在此提供商注册之前，在 config.yaml 中设置 provider: alibaba_coding 的用户会静默回退到 OpenRouter 路由。

MiniMax（OAuth）

MiniMax-M2.7 通过浏览器 OAuth 登录 — 无需 API Key。在 hermes model 中选择 MiniMax (OAuth)，通过浏览器登录，Hermes 持久化 access + refresh token。底层使用 Anthropic Messages 兼容端点（/anthropic）。

bash

hermes model
# → 选择 "MiniMax (OAuth)"
# → 浏览器打开；使用你的 MiniMax 账户登录（全球或中国区域）
# → 确认 — 凭证保存到 ~/.hermes/auth.json

hermes chat   # 使用 api.minimax.io/anthropic 端点

或配置 config.yaml：

yaml

model:
  provider: "minimax-oauth"
  default: "MiniMax-M2.7"

支持的模型：MiniMax-M2.7（主模型）和 MiniMax-M2.7-highspeed（作为默认辅助模型接入）。OAuth 路径忽略 MINIMAX_API_KEY / MINIMAX_BASE_URL。

MiniMax OAuth 与 API Key 的区别：minimax-oauth 使用 MiniMax 面向消费者的 Portal 与 OAuth 登录 — 无需计费设置。minimax 和 minimax-cn 提供商使用 MINIMAX_API_KEY / MINIMAX_CN_API_KEY — 用于程序化访问。完整说明参见 MiniMax OAuth 指南。

NVIDIA NIM

通过 build.nvidia.com（免费 API Key）或本地 NIM 端点使用 Nemotron 等开源模型。

bash

# 云端（build.nvidia.com）
hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b
# 需要：NVIDIA_API_KEY 写入 ~/.hermes/.env

# 本地 NIM 端点 — 覆盖 base URL
NVIDIA_BASE_URL=http://localhost:8000/v1 hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b

或永久配置 config.yaml：

yaml

model:
  provider: "nvidia"
  default: "nvidia/nemotron-3-super-120b-a12b"

本地 NIM 提示：对于本地部署（DGX Spark、本地 GPU），设置 NVIDIA_BASE_URL=http://localhost:8000/v1。NIM 暴露与 build.nvidia.com 相同的 OpenAI 兼容 chat completions API，因此在云和本地之间切换只需更改一行环境变量。

GMI Cloud

通过 GMI Cloud 使用开放和推理模型 — OpenAI 兼容 API，API Key 认证。

bash

# GMI Cloud
hermes chat --provider gmi --model deepseek-ai/DeepSeek-R1
# 需要：GMI_API_KEY 写入 ~/.hermes/.env

或永久配置 config.yaml：

yaml

model:
  provider: "gmi"
  default: "deepseek-ai/DeepSeek-R1"

Base URL 可通过 GMI_BASE_URL 覆盖（默认：https://api.gmi-serving.com/v1）。

StepFun

通过 StepFun 使用 Step 系列模型 — OpenAI 兼容 API，API Key 认证。

bash

# StepFun
hermes chat --provider stepfun --model step-3-mini
# 需要：STEPFUN_API_KEY 写入 ~/.hermes/.env

或永久配置 config.yaml：

yaml

model:
  provider: "stepfun"
  default: "step-3-mini"

Base URL 可通过 STEPFUN_BASE_URL 覆盖（默认：https://api.stepfun.com/v1）。

Hugging Face Inference Providers

Hugging Face Inference Providers 通过统一的 OpenAI 兼容端点（router.huggingface.co/v1）路由到 20+ 开放模型。请求自动路由到最快的可用后端（Groq、Together、SambaNova 等），并自动故障转移。

bash

# 使用任意可用模型
hermes chat --provider huggingface --model Qwen/Qwen3-235B-A22B-Thinking-2507
# 需要：HF_TOKEN 写入 ~/.hermes/.env

# 短别名
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2

或永久配置 config.yaml：

yaml

model:
  provider: "huggingface"
  default: "Qwen/Qwen3-235B-A22B-Thinking-2507"

在 huggingface.co/settings/tokens 获取你的 Token — 确保启用 "Make calls to Inference Providers" 权限。包含免费层（每月 $0.10 额度，提供商费率无加价）。

你可以在模型名称后追加路由后缀：:fastest（默认）、:cheapest 或 :provider_name 来强制指定后端。

Base URL 可通过 HF_BASE_URL 覆盖。

自定义与自托管 LLM 提供商

Hermes Agent 可与任何 OpenAI 兼容的 API 端点配合使用。如果服务器实现了 /v1/chat/completions，你就可以将 Hermes 指向它。这意味着你可以使用本地模型、GPU 推理服务器、多提供商路由器或任何第三方 API。

通用设置

三种方式配置自定义端点：

交互式设置（推荐）：

bash

hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入：API base URL、API Key、模型名称

手动配置（config.yaml）：

yaml

# 在 ~/.hermes/config.yaml 中
model:
  default: your-model-name
  provider: custom
  base_url: http://localhost:8000/v1
  api_key: your-key-or-leave-empty-for-local

旧版环境变量警告：.env 中的 OPENAI_BASE_URL 和 LLM_MODEL 已移除。Hermes 的任何部分都不会读取它们 — config.yaml 是模型和端点配置的唯一事实来源。如果你的 .env 中有过期条目，它们会在下次 hermes setup 或配置迁移时自动清除。使用 hermes model 或直接编辑 config.yaml。

两种方式都会持久化到 config.yaml，它是模型、提供商和 base URL 的事实来源。

使用 `/model` 切换模型

hermes model 与 /model 的区别： hermes model（在终端中运行，不在任何聊天会话内）是完整的提供商设置向导。用于添加新提供商、运行 OAuth 流程、输入 API Key 和配置自定义端点。

/model（在活跃的 Hermes 聊天会话中输入）只能在你已设置的提供商和模型之间切换。它不能添加新提供商、运行 OAuth 或提示输入 API Key。如果你只配置了一个提供商（如 OpenRouter），/model 只会显示该提供商的模型。

要添加新提供商： 退出会话（Ctrl+C 或 /quit），运行 hermes model，设置新提供商，然后开始新会话。

配置至少一个自定义端点后，你可以在会话中切换模型：

text

/model custom:qwen-2.5          # 切换到自定义端点上的模型
/model custom                    # 从端点自动检测模型
/model openrouter:claude-sonnet-4 # 切换回云端提供商

如果你配置了命名自定义提供商（见下文），使用三段式语法：

text

/model custom:local:qwen-2.5    # 使用 "local" 自定义提供商和模型 qwen-2.5
/model custom:work:llama3       # 使用 "work" 自定义提供商和 llama3

切换提供商时，Hermes 将 base URL 和提供商持久化到配置中，使更改在重启后保持。当从自定义端点切换到内置提供商时，过期的 base URL 会自动清除。

/model custom（裸写，无模型名）会查询端点的 /models API 并在只加载了一个模型时自动选择。适用于运行单个模型的本地服务器。

以下所有部分都遵循相同模式 — 只需更改 URL、Key 和模型名称。

Ollama — 本地模型，零配置

Ollama 用一条命令即可在本地运行开源模型。最适合：快速本地实验、隐私敏感工作、离线使用。通过 OpenAI 兼容 API 支持 tool calling。

bash

# 安装并运行模型
ollama pull qwen2.5-coder:32b
ollama serve   # 在端口 11434 启动

然后配置 Hermes：

bash

hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL：http://localhost:11434/v1
# 跳过 API Key（Ollama 不需要）
# 输入模型名称（如 qwen2.5-coder:32b）

或直接配置 config.yaml：

yaml

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768   # 见下方警告

Ollama 默认上下文长度非常低：Ollama 默认不使用模型的完整上下文窗口。根据你的 VRAM，默认值为：

可用 VRAM	默认上下文
低于 24 GB	4,096 tokens
24-48 GB	32,768 tokens
48+ GB	256,000 tokens

对于使用工具的 Agent，你至少需要 16k-32k 上下文。在 4k 下，仅系统 prompt + 工具 schema 就可能填满窗口，没有空间留给对话。

如何增加（选择一种）：

bash

# 方式 1：通过环境变量全局设置（推荐）
OLLAMA_CONTEXT_LENGTH=32768 ollama serve

# 方式 2：对于 systemd 管理的 Ollama
sudo systemctl edit ollama.service
# 添加：Environment="OLLAMA_CONTEXT_LENGTH=32768"
# 然后：sudo systemctl daemon-reload && sudo systemctl restart ollama

# 方式 3：烘焙到自定义模型中（每个模型持久化）
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile

你不能通过 OpenAI 兼容 API（/v1/chat/completions）设置上下文长度。必须在服务器端或通过 Modelfile 配置。这是将 Ollama 与 Hermes 等工具集成时最常见的问题来源。

验证上下文设置是否正确：

bash

ollama ps
# 查看 CONTEXT 列 — 应显示你配置的值

使用 ollama list 列出可用模型。使用 ollama pull <model> 从 Ollama 库拉取任意模型。Ollama 自动处理 GPU 卸载 — 大多数设置无需配置。

vLLM — 高性能 GPU 推理

vLLM 是生产 LLM 服务的标准。最适合：GPU 硬件上的最大吞吐量、服务大模型、连续批处理。

bash

pip install vllm
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --port 8000 \
  --max-model-len 65536 \
  --tensor-parallel-size 2 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

然后配置 Hermes：

bash

hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL：http://localhost:8000/v1
# 跳过 API Key（或如果你用 --api-key 配置了 vLLM 则输入一个）
# 输入模型名称：meta-llama/Llama-3.1-70B-Instruct

上下文长度：vLLM 默认读取模型的 max_position_embeddings。如果超出 GPU 内存，会报错并要求你降低 --max-model-len。你也可以使用 --max-model-len auto 自动找到适合的最大值。设置 --gpu-memory-utilization 0.95（默认 0.9）以将更多上下文塞入 VRAM。

Tool calling 需要显式标志：

标志	用途
`--enable-auto-tool-choice`	`tool_choice: "auto"` 所需（Hermes 的默认值）
`--tool-call-parser <name>`	模型 tool call 格式的解析器

支持的解析器：hermes（Qwen 2.5、Hermes 2/3）、llama3_json（Llama 3.x）、mistral、deepseek_v3、deepseek_v31、xlam、pythonic。没有这些标志，tool call 将无法工作 — 模型会将 tool call 输出为文本。

vLLM 支持人类可读的大小：--max-model-len 64k（小写 k = 1000，大写 K = 1024）。

SGLang — 使用 RadixAttention 的快速推理

SGLang 是 vLLM 的替代方案，使用 RadixAttention 实现 KV 缓存复用。最适合：多轮对话（前缀缓存）、约束解码、结构化输出。

bash

pip install "sglang[all]"
python -m sglang.launch_server \
  --model meta-llama/Llama-3.1-70B-Instruct \
  --port 30000 \
  --context-length 65536 \
  --tp 2 \
  --tool-call-parser qwen

然后配置 Hermes：

bash

hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL：http://localhost:30000/v1
# 输入模型名称：meta-llama/Llama-3.1-70B-Instruct

上下文长度：SGLang 默认从模型配置读取。使用 --context-length 覆盖。如果需要超过模型声明的最大值，设置 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1。

Tool calling：使用 --tool-call-parser 配合适合你模型系列的解析器：qwen（Qwen 2.5）、llama3、llama4、deepseekv3、mistral、glm。没有此标志，tool call 会作为纯文本返回。

SGLang 默认最大输出仅为 128 tokens：如果响应似乎被截断，请在请求中添加 max_tokens 或在服务器上设置 --default-max-tokens。如果请求中未指定，SGLang 的默认值仅为每个响应 128 tokens。

llama.cpp / llama-server — CPU 和 Metal 推理

llama.cpp 在 CPU、Apple Silicon（Metal）和消费级 GPU 上运行量化模型。最适合：在没有数据中心 GPU 的情况下运行模型、Mac 用户、边缘部署。

bash

# 构建并启动 llama-server
cmake -B build && cmake --build build --config Release
./build/bin/llama-server \
  --jinja -fa \
  -c 32768 \
  -ngl 99 \
  -m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
  --port 8080 --host 0.0.0.0

上下文长度（-c）：最新构建默认为 0，即从 GGUF 元数据读取模型的训练上下文。对于训练上下文为 128k+ 的模型，这可能因尝试分配完整 KV 缓存而 OOM。将 -c 显式设置为你需要的值（32k-64k 是 Agent 使用的良好范围）。如果使用并行槽（-np），总上下文在槽之间分配 — 使用 -c 32768 -np 4 时，每个槽仅获得 8k。

然后配置 Hermes 指向它：

bash

hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL：http://localhost:8080/v1
# 跳过 API Key（本地服务器不需要）
# 输入模型名称 — 或留空以在只加载一个模型时自动检测

这会将端点保存到 config.yaml，使其在会话间持久化。

--jinja 是 tool calling 所必需的：没有 --jinja，llama-server 会完全忽略 tools 参数。模型会尝试在其响应文本中写入 JSON 来调用工具，但 Hermes 不会将其识别为 tool call — 你会看到原始 JSON 如 {"name": "web_search", ...} 作为消息打印，而不是实际搜索。

原生 tool calling 支持（最佳性能）：Llama 3.x、Qwen 2.5（包括 Coder）、Hermes 2/3、Mistral、DeepSeek、Functionary。所有其他模型使用通用处理程序，可用但效率可能较低。完整列表参见 llama.cpp function calling 文档。

你可以通过检查 http://localhost:8080/props 验证 tool 支持是否激活 — chat_template 字段应该存在。

从 Hugging Face 下载 GGUF 模型。Q4_K_M 量化提供质量与内存使用的最佳平衡。

LM Studio — 本地模型的桌面应用

LM Studio 是一个用于运行本地模型的桌面应用，带有 GUI。最适合：偏好可视化界面的用户、快速模型测试、macOS/Windows/Linux 上的开发者。

从 LM Studio 应用启动服务器（Developer 标签 → Start Server），或使用 CLI：

bash

lms server start                        # 在端口 1234 启动
lms load qwen2.5-coder --context-length 32768

然后配置 Hermes：

bash

hermes model
# 选择 "LM Studio"
# 按 Enter 使用 http://localhost:1234/v1
# 从发现的模型中选择一个
# 如果启用了 LM Studio 服务器认证，在提示时输入 LM_API_KEY

Hermes 会自动以 64K 上下文长度加载 LM Studio 模型。

在 LM Studio 中更改上下文长度：

点击模型选择器旁的齿轮图标
将 "Context Length" 设置为至少 64000 以获得流畅体验
重新加载模型使更改生效
如果你的机器无法容纳 64000，考虑使用更小的模型配合更大的上下文长度。

或者使用 CLI：lms load model-name --context-length 64000

你可以使用 CLI 估算模型是否适合：lms load model-name --context-length 64000 --estimate-only

要设置每个模型的持久默认值：My Models 标签 → 模型上的齿轮图标 → 设置上下文大小。

Tool calling：自 LM Studio 0.3.6 起支持。具有原生 tool-call 训练的模型（Qwen 2.5、Llama 3.x、Mistral、Hermes）会被自动检测并显示工具徽章。其他模型使用通用回退，可靠性可能较低。

WSL2 网络（Windows 用户）

由于 Hermes Agent 需要 Unix 环境，Windows 用户在 WSL2 中运行它。如果你的模型服务器（Ollama、LM Studio 等）运行在 Windows 宿主机上，你需要桥接网络 — WSL2 使用虚拟网络适配器和自己的子网，因此 WSL2 中的 localhost 指的是 Linux VM，不是 Windows 宿主机。

都在 WSL2 中？没问题。 如果你的模型服务器也在 WSL2 中运行（vLLM、SGLang 和 llama-server 的常见情况），localhost 按预期工作 — 它们共享相同的网络命名空间。跳过此节。

方式 1：镜像网络模式（推荐）

在 Windows 11 22H2+ 上可用，镜像模式使 localhost 在 Windows 和 WSL2 之间双向工作 — 最简单的解决方案。

创建或编辑 %USERPROFILE%\.wslconfig（如 C:\Users\YourName\.wslconfig）：
ini
```
[wsl2]
networkingMode=mirrored
```
从 PowerShell 重启 WSL：
powershell
```
wsl --shutdown
```
重新打开 WSL2 终端。localhost 现在可以访问 Windows 服务：
bash
```
curl http://localhost:11434/v1/models   # Windows 上的 Ollama — 可用
```

Hyper-V 防火墙说明：在某些 Windows 11 构建版本上，Hyper-V 防火墙默认阻止镜像连接。如果启用镜像模式后 localhost 仍不工作，在管理员 PowerShell 中运行：
powershell
Set-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5-438A-A0B2-2B479E8F2E90}' -DefaultInboundAction Allow

方式 2：使用 Windows 宿主机 IP（Windows 10 / 较旧构建版本）

如果无法使用镜像模式，从 WSL2 内部找到 Windows 宿主机 IP 并使用它代替 localhost：

bash

# 获取 Windows 宿主机 IP（WSL2 虚拟网络的默认网关）
ip route show | grep -i default | awk '{ print $3 }'
# 示例输出：172.29.192.1

在 Hermes 配置中使用该 IP：

yaml

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://172.29.192.1:11434/v1   # Windows 宿主机 IP，不是 localhost

动态辅助：宿主机 IP 在 WSL2 重启后可能改变。你可以在 shell 中动态获取：
bash
export WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }')
echo "Windows host at: $WSL_HOST"
curl http://$WSL_HOST:11434/v1/models   # 测试 Ollama
或使用机器的 mDNS 名称（需要 WSL2 中安装 libnss-mdns）：
bash
sudo apt install libnss-mdns
curl http://$(hostname).local:11434/v1/models

服务器绑定地址（NAT 模式必需）

如果你使用方式 2（NAT 模式与宿主机 IP），Windows 上的模型服务器必须接受来自 127.0.0.1 以外的连接。默认情况下，大多数服务器只监听 localhost — NAT 模式下的 WSL2 连接来自不同的虚拟子网，会被拒绝。在镜像模式下，localhost 直接映射，因此默认的 127.0.0.1 绑定可以正常工作。

服务器	默认绑定	修复方法
Ollama	`127.0.0.1`	在启动 Ollama 前设置 `OLLAMA_HOST=0.0.0.0` 环境变量（Windows 的系统设置 → 环境变量，或编辑 Ollama 服务）
LM Studio	`127.0.0.1`	在 Developer 标签 → Server 设置中启用 "Serve on Network"
llama-server	`127.0.0.1`	在启动命令中添加 `--host 0.0.0.0`
vLLM	`0.0.0.0`	默认已绑定所有接口
SGLang	`127.0.0.1`	在启动命令中添加 `--host 0.0.0.0`

Windows 上的 Ollama（详细）： Ollama 作为 Windows 服务运行。设置 OLLAMA_HOST：

打开 系统属性 → 环境变量
添加新的系统变量：OLLAMA_HOST = 0.0.0.0
重启 Ollama 服务（或重启电脑）

Windows 防火墙

Windows 防火墙将 WSL2 视为单独的网络（NAT 和镜像模式都是）。如果上述步骤后连接仍失败，为模型服务器的端口添加防火墙规则：

powershell

# 在管理员 PowerShell 中运行 — 将 PORT 替换为你的服务器端口
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434

常见端口：Ollama 11434、vLLM 8000、SGLang 30000、llama-server 8080、LM Studio 1234。

快速验证

从 WSL2 内部测试你能否访问模型服务器：

bash

# 将 URL 替换为你的服务器地址和端口
curl http://localhost:11434/v1/models          # 镜像模式
curl http://172.29.192.1:11434/v1/models       # NAT 模式（使用你的实际宿主机 IP）

如果你收到列出模型的 JSON 响应，就说明正常了。在 Hermes 配置中使用相同的 URL 作为 base_url。

本地模型故障排除

这些问题影响所有与 Hermes 配合使用的本地推理服务器。

从 WSL2 到 Windows 宿主机模型服务器的 "Connection refused"

如果你在 WSL2 中运行 Hermes，而模型服务器在 Windows 宿主机上，http://localhost:<port> 在 WSL2 的默认 NAT 网络模式下不会工作。参见上方 WSL2 网络了解修复方法。

Tool call 显示为文本而非执行

模型输出类似 {"name": "web_search", "arguments": {...}} 的内容作为消息，而不是实际调用工具。

原因： 你的服务器未启用 tool calling，或模型不支持通过服务器的 tool calling 实现。

服务器	修复方法
llama.cpp	在启动命令中添加 `--jinja`
vLLM	添加 `--enable-auto-tool-choice --tool-call-parser hermes`
SGLang	添加 `--tool-call-parser qwen`（或适当的解析器）
Ollama	默认启用 tool calling — 确保你的模型支持（用 `ollama show model-name` 检查）
LM Studio	更新到 0.3.6+ 并使用支持原生 tool 的模型

模型似乎遗忘上下文或给出不连贯的回复

原因： 上下文窗口太小。当对话超出上下文限制时，大多数服务器会静默丢弃较早的消息。Hermes 的系统 prompt + 工具 schema 仅就可能使用 4k-8k tokens。

诊断：

bash

# 检查 Hermes 认为的上下文大小
# 查看启动行："Context limit: X tokens"

# 检查服务器的实际上下文
# Ollama：ollama ps（CONTEXT 列）
# llama.cpp：curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM：检查启动参数中的 --max-model-len

修复： 将上下文设置为至少 32,768 tokens 以用于 Agent 使用。参见上方每个服务器部分的特定标志。

启动时 "Context limit: 2048 tokens"

Hermes 从服务器的 /v1/models 端点自动检测上下文长度。如果服务器报告一个低值（或不报告），Hermes 使用模型声明的限制，这可能是错误的。

修复： 在 config.yaml 中显式设置：

yaml

model:
  default: your-model
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768

响应中途被截断

可能原因：

服务器上的低输出上限（max_tokens） — SGLang 默认每个响应仅 128 tokens。在服务器上设置 --default-max-tokens 或在 config.yaml 中配置 model.max_tokens。注意：max_tokens 仅控制响应长度 — 与对话历史可以多长无关（那是 context_length）。
上下文耗尽 — 模型填满了上下文窗口。增加 model.context_length 或在 Hermes 中启用上下文压缩。

LiteLLM Proxy — 多提供商网关

LiteLLM 是一个 OpenAI 兼容代理，将 100+ LLM 提供商统一在单一 API 后。最适合：无需更改配置即可切换提供商、负载均衡、回退链、预算控制。

bash

# 安装并启动
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000

# 或使用配置文件配置多个模型：
litellm --config litellm_config.yaml --port 4000

然后通过 hermes model → Custom endpoint → http://localhost:4000/v1 配置 Hermes。

带回退的示例 litellm_config.yaml：

yaml

model_list:
  - model_name: "best"
    litellm_params:
      model: anthropic/claude-sonnet-4
      api_key: sk-ant-...
  - model_name: "best"
    litellm_params:
      model: openai/gpt-4o
      api_key: sk-...
router_settings:
  routing_strategy: "latency-based-routing"

ClawRouter — 成本优化路由

ClawRouter 由 BlockRunAI 开发，是一个本地路由代理，根据查询复杂度自动选择模型。它跨 14 个维度对请求分类，并路由到能处理任务的最便宜模型。支付通过 USDC 加密货币（无需 API Key）。

bash

# 安装并启动
npx @blockrun/clawrouter    # 在端口 8402 启动

然后通过 hermes model → Custom endpoint → http://localhost:8402/v1 → 模型名称 blockrun/auto 配置 Hermes。

路由配置：

配置	策略	节省
`blockrun/auto`	平衡质量/成本	74-100%
`blockrun/eco`	尽可能最便宜	95-100%
`blockrun/premium`	最佳质量模型	0%
`blockrun/free`	仅免费模型	100%
`blockrun/agentic`	优化 tool 使用	变化

ClawRouter 需要在 Base 或 Solana 上有 USDC 资金的钱包进行支付。所有请求通过 BlockRun 的后端 API 路由。运行 npx @blockrun/clawrouter doctor 检查钱包状态。

其他兼容提供商

任何具有 OpenAI 兼容 API 的服务都可以使用。一些热门选项：

提供商	Base URL	说明
Together AI	`https://api.together.xyz/v1`	云端托管的开源模型
Groq	`https://api.groq.com/openai/v1`	超快推理
DeepSeek	`https://api.deepseek.com/v1`	DeepSeek 模型
Fireworks AI	`https://api.fireworks.ai/inference/v1`	快速开源模型托管
GMI Cloud	`https://api.gmi-serving.com/v1`	托管 OpenAI 兼容推理
Cerebras	`https://api.cerebras.ai/v1`	晶圆级芯片推理
Mistral AI	`https://api.mistral.ai/v1`	Mistral 模型
OpenAI	`https://api.openai.com/v1`	直接 OpenAI 访问
Azure OpenAI	`https://YOUR.openai.azure.com/`	企业版 OpenAI
LocalAI	`http://localhost:8080/v1`	自托管，多模型
Jan	`http://localhost:1337/v1`	带本地模型的桌面应用

通过 hermes model → Custom endpoint 配置以上任意服务，或在 config.yaml 中配置：

yaml

model:
  default: meta-llama/Llama-3.1-70B-Instruct-Turbo
  provider: custom
  base_url: https://api.together.xyz/v1
  api_key: your-together-key

上下文长度检测

两个设置，容易混淆： context_length 是总上下文窗口 — 输入和输出 tokens 的合并预算（如 Claude Opus 4.6 的 200,000）。Hermes 用它来决定何时压缩历史记录和验证 API 请求。

model.max_tokens 是输出上限 — 模型在单次响应中可能生成的最大 token 数。它与对话历史可以多长完全无关。行业标准名称 max_tokens 是常见的混淆来源；Anthropic 的原生 API 已将其重命名为 max_output_tokens 以提高清晰度。

当自动检测错误获取窗口大小时设置 context_length。仅当你需要限制单个响应的长度时设置 model.max_tokens。

Hermes 使用多源解析链来检测模型和提供商的正确上下文窗口：

配置覆盖 — config.yaml 中的 model.context_length（最高优先级）
自定义提供商每个模型 — custom_providers[].models.<id>.context_length
持久缓存 — 之前发现的值（重启后保留）
端点 /models — 查询服务器 API（本地/自定义端点）
Anthropic /v1/models — 查询 Anthropic API 获取 max_input_tokens（仅限 API Key 用户）
OpenRouter API — OpenRouter 的实时模型元数据
Nous Portal — 将 Nous 模型 ID 后缀匹配到 OpenRouter 元数据
models.dev — 社区维护的注册表，包含 100+ 提供商的 3800+ 模型的提供商特定上下文长度
回退默认值 — 宽泛的模型系列模式（默认 128K）

对于大多数设置，这开箱即用。该系统是提供商感知的 — 相同模型可以有不同的上下文限制，取决于由谁提供（例如 claude-opus-4.6 在 Anthropic 直连上是 1M，但在 GitHub Copilot 上是 128K）。

要显式设置上下文长度，在模型配置中添加 context_length：

yaml

model:
  default: "qwen3.5:9b"
  base_url: "http://localhost:8080/v1"
  context_length: 131072  # tokens

对于自定义端点，你也可以按模型设置上下文长度：

yaml

custom_providers:
  - name: "My Local LLM"
    base_url: "http://localhost:11434/v1"
    models:
      qwen3.5:27b:
        context_length: 32768
      deepseek-r1:70b:
        context_length: 65536

hermes model 在配置自定义端点时会提示输入上下文长度。留空则自动检测。

何时手动设置：

你正在使用 Ollama，且自定义的 num_ctx 低于模型最大值

你想将上下文限制在模型最大值以下（如在 128k 模型上使用 8k 以节省 VRAM）

你在代理后面运行，该代理不暴露 /v1/models

命名自定义提供商

如果你使用多个自定义端点（如本地开发服务器和远程 GPU 服务器），可以在 config.yaml 中定义命名自定义提供商：

yaml

custom_providers:
  - name: local
    base_url: http://localhost:8080/v1
    # api_key 已省略 — Hermes 对无密钥的本地服务器使用 "no-key-required"
  - name: work
    base_url: https://gpu-server.internal.corp/v1
    key_env: CORP_API_KEY
    api_mode: chat_completions   # 可选，从 URL 自动检测
  - name: anthropic-proxy
    base_url: https://proxy.example.com/anthropic
    key_env: ANTHROPIC_PROXY_KEY
    api_mode: anthropic_messages  # 用于 Anthropic 兼容代理

在会话中使用三段式语法切换：

text

/model custom:local:qwen-2.5       # 使用 "local" 端点和 qwen-2.5
/model custom:work:llama3-70b      # 使用 "work" 端点和 llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4  # 使用代理

你也可以从交互式 hermes model 菜单中选择命名自定义提供商。

实战手册：Together AI、Groq、Perplexity

其他兼容提供商中列出的云提供商都使用 OpenAI 的 REST 方言，因此它们在 custom_providers: 下的配置方式相同。以下是三个实战示例。每个直接放入 ~/.hermes/config.yaml，对应的 API Key 放入 ~/.hermes/.env。

Together AI

托管开源模型（Llama、MiniMax、Gemma、DeepSeek、Qwen），价格显著低于官方 API。多模型集群的良好默认选择。

yaml

# ~/.hermes/config.yaml
custom_providers:
  - name: together
    base_url: https://api.together.xyz/v1
    key_env: TOGETHER_API_KEY
    # api_mode: chat_completions  # 默认 — 无需设置

model:
  default: MiniMaxAI/MiniMax-M2.7   # 或 together.ai/models 中的任意模型
  provider: custom:together

bash

# ~/.hermes/.env
TOGETHER_API_KEY=your-together-key

会话中切换模型：

text

/model custom:together:meta-llama/Llama-3.3-70B-Instruct-Turbo
/model custom:together:google/gemma-4-31b-it
/model custom:together:deepseek-ai/DeepSeek-V3

Together 的 /v1/models 端点可用，因此 hermes model 可以自动发现可用模型。

Groq

超快推理（Llama-3.3-70B 上约 500 tok/s）。模型目录较小，但对延迟敏感的交互使用很有优势。

yaml

# ~/.hermes/config.yaml
custom_providers:
  - name: groq
    base_url: https://api.groq.com/openai/v1
    key_env: GROQ_API_KEY

model:
  default: llama-3.3-70b-versatile
  provider: custom:groq

bash

# ~/.hermes/.env
GROQ_API_KEY=your-groq-key

Perplexity

当你想要一个自动进行实时网页搜索和引用的模型时很有用。对可用模型有严格限制 — 查看 perplexity.ai/settings/api 获取当前列表。

yaml

# ~/.hermes/config.yaml
custom_providers:
  - name: perplexity
    base_url: https://api.perplexity.ai
    key_env: PERPLEXITY_API_KEY

model:
  default: sonar
  provider: custom:perplexity

bash

# ~/.hermes/.env
PERPLEXITY_API_KEY=your-perplexity-key

一个配置中的多个提供商

三个示例可以组合 — 全部一起使用，每轮用 /model custom:<name>:<model> 切换：

yaml

custom_providers:
  - name: together
    base_url: https://api.together.xyz/v1
    key_env: TOGETHER_API_KEY
  - name: groq
    base_url: https://api.groq.com/openai/v1
    key_env: GROQ_API_KEY
  - name: perplexity
    base_url: https://api.perplexity.ai
    key_env: PERPLEXITY_API_KEY

model:
  default: MiniMaxAI/MiniMax-M2.7
  provider: custom:together      # 启动时使用 Together；之后自由切换

故障排除提示：

配置 CLI 验证器修复后，hermes doctor 不应为任何这些名称打印 Unknown provider 警告。

如果提供商的 /v1/models 端点不可达（Perplexity 是常见情况），hermes model 会带警告持久化模型而非硬拒绝 — 参见 #15136。

要完全跳过 custom_providers: 并使用裸 provider: custom 配合 CUSTOM_BASE_URL 环境变量，参见 #15103。

选择合适的配置

使用场景	推荐方案
只想让它工作	OpenRouter（默认）或 Nous Portal
本地模型，简单设置	Ollama
生产 GPU 服务	vLLM 或 SGLang
Mac / 无 GPU	Ollama 或 llama.cpp
多提供商路由	LiteLLM Proxy 或 OpenRouter
成本优化	ClawRouter 或 OpenRouter 配合 `sort: "price"`
最大隐私	Ollama、vLLM 或 llama.cpp（完全本地）
企业 / Azure	Azure OpenAI 自定义端点
中国 AI 模型	z.ai（GLM）、Kimi/Moonshot（`kimi-coding` 或 `kimi-coding-cn`）、MiniMax、小米 MiMo 或腾讯 TokenHub（一等提供商）

你可以随时使用 hermes model 切换提供商 — 无需重启。你的对话历史、记忆和技能不受你使用哪个提供商的影响。

可选 API Key

功能	提供商	环境变量
网页抓取	Firecrawl	`FIRECRAWL_API_KEY`、`FIRECRAWL_API_URL`
浏览器自动化	Browserbase	`BROWSERBASE_API_KEY`、`BROWSERBASE_PROJECT_ID`
图像生成	FAL	`FAL_KEY`
高级 TTS 语音	ElevenLabs	`ELEVENLABS_API_KEY`
OpenAI TTS + 语音转录	OpenAI	`VOICE_TOOLS_OPENAI_KEY`
Mistral TTS + 语音转录	Mistral	`MISTRAL_API_KEY`
跨会话用户建模	Honcho	`HONCHO_API_KEY`
语义长期记忆	Supermemory	`SUPERMEMORY_API_KEY`

自托管 Firecrawl

默认情况下，Hermes 使用 Firecrawl 云 API 进行网页搜索和抓取。如果你更愿意在本地运行 Firecrawl，可以将 Hermes 指向自托管实例。完整设置说明参见 Firecrawl 的 SELF_HOST.md。

你将获得： 无需 API Key、无速率限制、无按页成本、完整数据主权。

你将失去： 云版本使用 Firecrawl 的专有 "Fire-engine" 进行高级反机器人绕过（Cloudflare、CAPTCHA、IP 轮换）。自托管使用基本 fetch + Playwright，因此某些受保护网站可能失败。搜索使用 DuckDuckGo 而非 Google。

设置：

克隆并启动 Firecrawl Docker 栈（5 个容器：API、Playwright、Redis、RabbitMQ、PostgreSQL — 需要约 4-8 GB RAM）：

bash

git clone https://github.com/firecrawl/firecrawl
cd firecrawl
# 在 .env 中设置：USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002
docker compose up -d

将 Hermes 指向你的实例（无需 API Key）：
bash
```
hermes config set FIRECRAWL_API_URL http://localhost:3002
```

如果你的自托管实例启用了认证，也可以同时设置 FIRECRAWL_API_KEY 和 FIRECRAWL_API_URL。

OpenRouter 提供商路由

使用 OpenRouter 时，你可以控制请求如何在提供商之间路由。在 ~/.hermes/config.yaml 中添加 provider_routing 部分：

yaml

provider_routing:
  sort: "throughput"          # "price"（默认）、"throughput" 或 "latency"
  # only: ["anthropic"]      # 仅使用这些提供商
  # ignore: ["deepinfra"]    # 跳过这些提供商
  # order: ["anthropic", "google"]  # 按此顺序尝试提供商
  # require_parameters: true  # 仅使用支持所有请求参数的提供商
  # data_collection: "deny"   # 排除可能存储/训练数据的提供商

快捷方式： 在任何模型名称后追加 :nitro 以使用吞吐量排序（如 anthropic/claude-sonnet-4:nitro），或 :floor 使用价格排序。

OpenRouter Pareto Code Router

OpenRouter 在 openrouter/pareto-code 提供了一个实验性编程模型路由器，自动将请求路由到满足编程质量标准的最便宜模型（由 Artificial Analysis 排名）。选择此模型并在 ~/.hermes/config.yaml 中调整 min_coding_score 参数：

yaml

model:
  provider: openrouter
  model: openrouter/pareto-code

openrouter:
  min_coding_score: 0.65   # 0.0-1.0；越高 = 更强（更贵）的编码器。默认 0.65。

说明：

min_coding_score 仅在 model.model 为 openrouter/pareto-code 时发送。在其他任何模型上该值无效。
设置为空字符串（或删除该行）让 OpenRouter 选择最强的可用编码器 — 这是 plugins 块被省略时的文档行为。
选择在给定日期的给定分数上是确定性的，但实际选择的模型可能随着 Pareto 前沿的移动而变化（新模型、基准更新）。
完整路由器行为参见 OpenRouter 的 Pareto Router 文档。
要为特定辅助任务（压缩、视觉等）而非主 Agent 使用 Pareto Code 路由器，在该任务下设置 extra_body.plugins — 参见辅助模型 → OpenRouter 路由与 Pareto Code 辅助任务。

回退提供商

配置一个备份提供商链，当主模型失败时（速率限制、服务器错误、认证失败），Hermes 按顺序尝试。规范格式是顶层的 fallback_providers: 列表：

yaml

fallback_providers:
  - provider: openrouter
    model: anthropic/claude-sonnet-4
  - provider: anthropic
    model: claude-sonnet-4
    # base_url: http://localhost:8000/v1    # 可选，用于自定义端点
    # api_mode: chat_completions           # 可选覆盖

旧版的单对 fallback_model: 字典仍被接受以保持向后兼容：

yaml

fallback_model:
  provider: openrouter
  model: anthropic/claude-sonnet-4

当激活时，回退会在不丢失对话的情况下交换会话中的模型和提供商。链按条目逐一尝试；激活在每个会话中仅触发一次。

支持的提供商：openrouter、nous、openai-codex、copilot、copilot-acp、anthropic、gemini、google-gemini-cli、qwen-oauth、huggingface、zai、kimi-coding、kimi-coding-cn、minimax、minimax-cn、minimax-oauth、deepseek、nvidia、xai、xai-oauth、ollama-cloud、bedrock、ai-gateway、azure-foundry、opencode-zen、opencode-go、kilocode、xiaomi、arcee、gmi、stepfun、lmstudio、alibaba、alibaba-coding-plan、tencent-tokenhub、custom。

回退仅通过 config.yaml 配置 — 或交互式通过 hermes fallback。关于何时触发、链如何推进以及如何与辅助任务和委托交互的完整详情，参见回退提供商。

另见

配置 — 通用配置（目录结构、配置优先级、终端后端、记忆、压缩等）
环境变量 — 所有环境变量的完整参考

字节笔记本

Hermes Agent AI Providers 全览：支持的模型提供商与配置参考

推理提供商

Google Gemini 通过 OAuth（google-gemini-cli）

两个模型管理命令

Anthropic（原生）

GitHub Copilot

一等 API Key 提供商

xAI（Grok）— Responses API + Prompt Caching

NovitaAI

Ollama Cloud — 托管 Ollama 模型，OAuth + API Key

AWS Bedrock

Qwen Portal（OAuth）

阿里云 Coding Plan

MiniMax（OAuth）

NVIDIA NIM

GMI Cloud

StepFun

Hugging Face Inference Providers

自定义与自托管 LLM 提供商

通用设置

使用 /model 切换模型

Ollama — 本地模型，零配置

vLLM — 高性能 GPU 推理

SGLang — 使用 RadixAttention 的快速推理

llama.cpp / llama-server — CPU 和 Metal 推理

LM Studio — 本地模型的桌面应用

WSL2 网络（Windows 用户）

方式 1：镜像网络模式（推荐）

方式 2：使用 Windows 宿主机 IP（Windows 10 / 较旧构建版本）

服务器绑定地址（NAT 模式必需）

Windows 防火墙

快速验证

本地模型故障排除

从 WSL2 到 Windows 宿主机模型服务器的 "Connection refused"

Tool call 显示为文本而非执行

模型似乎遗忘上下文或给出不连贯的回复

启动时 "Context limit: 2048 tokens"

响应中途被截断

LiteLLM Proxy — 多提供商网关

ClawRouter — 成本优化路由

其他兼容提供商

上下文长度检测

命名自定义提供商

实战手册：Together AI、Groq、Perplexity

Together AI

Groq

Perplexity

一个配置中的多个提供商

选择合适的配置

可选 API Key

自托管 Firecrawl

OpenRouter 提供商路由

OpenRouter Pareto Code Router

回退提供商

另见

Google Gemini 通过 OAuth（`google-gemini-cli`）

使用 `/model` 切换模型