字节笔记本
2026年5月16日
Hermes Agent AI Providers 全览:支持的模型提供商与配置参考
本文全面介绍 Hermes Agent 支持的 AI 模型提供商,从云端 API(如 OpenRouter、Anthropic)到自托管端点(如 Ollama、vLLM),再到高级路由和回退配置。你需要至少配置一个提供商才能使用 Hermes。
推理提供商
你需要至少一种方式连接到 LLM。使用 hermes model 交互式切换提供商和模型,或直接配置:
| 提供商 | 配置方式 |
|---|---|
| Nous Portal | hermes model(OAuth,订阅制) |
| OpenAI Codex | hermes model(ChatGPT OAuth,使用 Codex 模型) |
| GitHub Copilot | hermes model(OAuth 设备码流程,COPILOT_GITHUB_TOKEN、GH_TOKEN 或 gh auth token) |
| GitHub Copilot ACP | hermes model(启动本地 copilot --acp --stdio) |
| Anthropic | hermes model(Claude Max + 额外用量额度通过 OAuth;也支持 Anthropic API Key 或手动 setup-token — 见下方说明) |
| OpenRouter | OPENROUTER_API_KEY 写入 ~/.hermes/.env |
| NovitaAI | NOVITA_API_KEY 写入 ~/.hermes/.env(provider: novita,200+ 模型,Model API、Agent Sandbox、GPU Cloud) |
| AI Gateway | AI_GATEWAY_API_KEY 写入 ~/.hermes/.env(provider: ai-gateway) |
| z.ai / GLM | GLM_API_KEY 写入 ~/.hermes/.env(provider: zai) |
| Kimi / Moonshot | KIMI_API_KEY 写入 ~/.hermes/.env(provider: kimi-coding) |
| Kimi / Moonshot(中国) | KIMI_CN_API_KEY 写入 ~/.hermes/.env(provider: kimi-coding-cn;别名:kimi-cn、moonshot-cn) |
| Arcee AI | ARCEEAI_API_KEY 写入 ~/.hermes/.env(provider: arcee;别名:arcee-ai、arceeai) |
| GMI Cloud | GMI_API_KEY 写入 ~/.hermes/.env(provider: gmi;别名:gmi-cloud、gmicloud) |
| MiniMax | MINIMAX_API_KEY 写入 ~/.hermes/.env(provider: minimax) |
| MiniMax 中国 | MINIMAX_CN_API_KEY 写入 ~/.hermes/.env(provider: minimax-cn) |
| 阿里云 | DASHSCOPE_API_KEY 写入 ~/.hermes/.env(provider: alibaba) |
| 阿里云 Coding Plan | DASHSCOPE_API_KEY(provider: alibaba-coding-plan,别名:alibaba_coding)— 独立计费 SKU,不同端点 |
| Kilo Code | KILOCODE_API_KEY 写入 ~/.hermes/.env(provider: kilocode) |
| 小米 MiMo | XIAOMI_API_KEY 写入 ~/.hermes/.env(provider: xiaomi,别名:mimo、xiaomi-mimo) |
| 腾讯 TokenHub | TOKENHUB_API_KEY 写入 ~/.hermes/.env(provider: tencent-tokenhub,别名:tencent、tokenhub、tencentmaas) |
| OpenCode Zen | OPENCODE_ZEN_API_KEY 写入 ~/.hermes/.env(provider: opencode-zen) |
| OpenCode Go | OPENCODE_GO_API_KEY 写入 ~/.hermes/.env(provider: opencode-go) |
| DeepSeek | DEEPSEEK_API_KEY 写入 ~/.hermes/.env(provider: deepseek) |
| Hugging Face | HF_TOKEN 写入 ~/.hermes/.env(provider: huggingface,别名:hf) |
| Google / Gemini | GOOGLE_API_KEY(或 GEMINI_API_KEY)写入 ~/.hermes/.env(provider: gemini) |
| Google Gemini(OAuth) | hermes model → "Google Gemini (OAuth)"(provider: google-gemini-cli,支持免费层,浏览器 PKCE 登录) |
| LM Studio | hermes model → "LM Studio"(provider: lmstudio,可选 LM_API_KEY) |
| 自定义端点 | hermes model → 选择 "Custom endpoint"(保存在 config.yaml 中) |
关于官方 API Key 路径,请参阅 Google Gemini 指南。
模型键别名提示:在
model:配置段中,你可以使用default:或model:作为模型 ID 的键名。model: { default: my-model }和model: { model: my-model }效果完全相同。
Google Gemini 通过 OAuth(google-gemini-cli)
google-gemini-cli 提供商使用 Google 的 Cloud Code Assist 后端 — 与 Google 自己的 gemini-cli 工具使用的相同 API。支持免费层(个人账户有慷慨的每日配额)和付费层(通过 GCP 项目的 Standard/Enterprise)。
快速开始:
hermes model
# → 选择 "Google Gemini (OAuth)"
# → 查看策略警告,确认
# → 浏览器打开 accounts.google.com,登录
# → 完成 — Hermes 在首次请求时自动配置你的免费层Hermes 默认搭载 Google 的公开 gemini-cli 桌面 OAuth 客户端 — 与 Google 开源 gemini-cli 中包含的凭证相同。桌面 OAuth 客户端不是机密的(PKCE 提供安全保障)。你无需安装 gemini-cli 或注册自己的 GCP OAuth 客户端。
认证工作原理:
- 使用 PKCE Authorization Code 流程连接
accounts.google.com - 浏览器回调地址为
http://127.0.0.1:8085/oauth2callback(如果端口被占用,自动使用临时端口) - Token 存储在
~/.hermes/auth/google_oauth.json(chmod 0600,原子写入,跨进程fcntl锁) - 过期前 60 秒自动刷新
- 无头环境(SSH、
HERMES_HEADLESS=1)→ 粘贴模式回退 - 飞行中刷新去重 — 两个并发请求不会双重刷新
invalid_grant(refresh token 被撤销)→ 凭证文件被清除,提示用户重新登录
推理工作原理:
- 流量发送到
https://cloudcode-pa.googleapis.com/v1internal:generateContent(或:streamGenerateContent?alt=sse用于流式),而非付费的v1beta/openai端点 - 请求体封装为
{project, model, user_prompt_id, request} - OpenAI 格式的
messages[]、tools[]、tool_choice会被转换为 Gemini 原生的contents[]、tools[].functionDeclarations、toolConfig格式 - 响应转换回 OpenAI 格式,使 Hermes 的其余部分无需修改即可工作
层级与项目 ID:
| 你的情况 | 操作方式 |
|---|---|
| 个人 Google 账户,想使用免费层 | 无需操作 — 登录即可开始对话 |
| Workspace / Standard / Enterprise 账户 | 设置 HERMES_GEMINI_PROJECT_ID 或 GOOGLE_CLOUD_PROJECT 为你的 GCP 项目 ID |
| VPC-SC 保护的机构 | Hermes 检测到 SECURITY_POLICY_VIOLATED 并自动强制使用 standard-tier |
免费层在首次使用时自动配置一个 Google 管理的项目。无需 GCP 设置。
配额监控:
/gquota
显示每个模型的剩余 Code Assist 配额及进度条:
Gemini Code Assist quota (project: 123-abc)
gemini-2.5-pro ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░ 85%
gemini-2.5-flash [input] ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░ 92%策略风险警告:Google 认为在第三方软件中使用 Gemini CLI OAuth 客户端违反策略。部分用户报告了账户限制。如需最低风险体验,请改用
gemini提供商的 API Key。Hermes 在 OAuth 开始前会显示明确警告并要求确认。
自定义 OAuth 客户端(可选):
如果你想注册自己的 Google OAuth 客户端 — 例如将配额和同意范围限定在自己的 GCP 项目内 — 设置:
HERMES_GEMINI_CLIENT_ID=your-client.apps.googleusercontent.com
HERMES_GEMINI_CLIENT_SECRET=... # Desktop 客户端可选在 console.cloud.google.com/apis/credentials 注册一个 Desktop app OAuth 客户端,并启用 Generative Language API。
Codex 说明:OpenAI Codex 提供商通过设备码认证(打开 URL,输入代码)。Hermes 将生成的凭证存储在
~/.hermes/auth.json中的自有认证存储中,并可在存在时导入现有 Codex CLI 凭证(~/.codex/auth.json)。无需安装 Codex CLI。
即使使用 Nous Portal、Codex 或自定义端点,某些工具(视觉、网页摘要、MoA)仍使用单独的"辅助"模型。默认情况下(
auxiliary.*.provider: "auto"),Hermes 将这些任务路由到你的主聊天模型 — 即在hermes model中选择的模型。你可以单独覆盖每个任务,将其路由到更便宜/更快的模型(例如 OpenRouter 上的 Gemini Flash)— 参见 辅助模型。
Nous Tool Gateway 提示:付费 Nous Portal 订阅者还可使用 Tool Gateway — 通过订阅路由的网页搜索、图像生成、TTS 和浏览器自动化。无需额外 API Key。在
hermes model设置过程中会自动提供,也可稍后使用hermes tools启用。
两个模型管理命令
Hermes 有两个模型命令,用途不同:
| 命令 | 运行位置 | 功能 |
|---|---|---|
hermes model | 终端(在任何会话之外) | 完整设置向导 — 添加提供商、运行 OAuth、输入 API Key、配置端点 |
/model | Hermes 聊天会话内 | 在已配置的提供商和模型之间快速切换 |
如果你尝试切换到尚未设置的提供商(例如只配置了 OpenRouter 却想使用 Anthropic),你需要使用 hermes model,而非 /model。先退出会话(Ctrl+C 或 /quit),运行 hermes model,完成提供商设置,然后开始新会话。
Anthropic(原生)
直接通过 Anthropic API 使用 Claude 模型 — 无需 OpenRouter 代理。支持三种认证方式:
需要 Claude Max "额外用量" 额度:当你通过
hermes model→ Anthropic OAuth 认证时(或通过hermes auth add anthropic --type oauth),Hermes 以 Claude Code 身份路由到你的 Anthropic 账户。只有在你拥有 Claude Max 计划并购买了额外用量额度时才能使用。 基础 Max 计划配额(Claude Code 默认包含的用量)不会被 Hermes 消耗 — 只消耗你额外添加的超额额度。Claude Pro 订阅者无法使用此路径。
如果你没有 Max + 额外额度,请改用
ANTHROPIC_API_KEY— 请求按该 Key 所属组织的标准 API 定价按 Token 计费,与任何 Claude 订阅无关。
# 使用 API Key(按 Token 计费)
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6
# 推荐方式:通过 `hermes model` 认证
# Hermes 在可用时直接使用 Claude Code 的凭证存储
hermes model
# 手动覆盖使用 setup-token(回退/传统方式)
export ANTHROPIC_TOKEN=*** # setup-token 或手动 OAuth token
hermes chat --provider anthropic
# 自动检测 Claude Code 凭证(如果你已使用 Claude Code)
hermes chat --provider anthropic # 自动读取 Claude Code 凭证文件当你通过 hermes model 选择 Anthropic OAuth 时,Hermes 优先使用 Claude Code 自身的凭证存储,而非将 token 复制到 ~/.hermes/.env。这样保持了可刷新的 Claude 凭证的可刷新性。
或者永久设置:
model:
provider: "anthropic"
default: "claude-sonnet-4-6"别名:
--provider claude和--provider claude-code也可作为--provider anthropic的简写。
GitHub Copilot
Hermes 将 GitHub Copilot 作为一等提供商支持,有两种模式:
copilot — 直接 Copilot API(推荐)。使用你的 GitHub Copilot 订阅通过 Copilot API 访问 GPT-5.x、Claude、Gemini 等模型。
hermes chat --provider copilot --model gpt-5.4认证选项(按此顺序检查):
COPILOT_GITHUB_TOKEN环境变量GH_TOKEN环境变量GITHUB_TOKEN环境变量gh auth tokenCLI 回退
如果未找到 token,hermes model 提供 OAuth 设备码登录 — 与 Copilot CLI 和 opencode 使用的流程相同。
Token 类型警告:Copilot API 不支持经典 Personal Access Token(
ghp_*)。支持的 Token 类型:
| 类型 | 前缀 | 获取方式 |
|---|---|---|
| OAuth token | gho_ | hermes model → GitHub Copilot → Login with GitHub |
| Fine-grained PAT | github_pat_ | GitHub Settings → Developer settings → Fine-grained tokens(需要 Copilot Requests 权限) |
| GitHub App token | ghu_ | 通过 GitHub App 安装获取 |
如果你的 gh auth token 返回 ghp_* token,请使用 hermes model 通过 OAuth 认证。
Hermes 中 Copilot 认证行为:Hermes 将受支持的 GitHub token(
gho_*、github_pat_*或ghu_*)直接发送到api.githubcopilot.com,并包含 Copilot 特定头部(Editor-Version、Copilot-Integration-Id、Openai-Intent、x-initiator)。在 HTTP 401 时,Hermes 现在在回退前执行一次性凭证恢复:
- 通过正常优先级链重新解析 token(
COPILOT_GITHUB_TOKEN→GH_TOKEN→GITHUB_TOKEN→gh auth token)- 使用刷新的头部重建共享 OpenAI 客户端
- 重试请求一次
某些较旧的社区代理使用
api.github.com/copilot_internal/v2/token交换流程。该端点对某些账户类型可能不可用(返回 404)。因此 Hermes 将直接 token 认证作为主要路径,依赖运行时凭证刷新 + 重试来保证健壮性。
API 路由:GPT-5+ 模型(gpt-5-mini 除外)自动使用 Responses API。所有其他模型(GPT-4o、Claude、Gemini 等)使用 Chat Completions。模型从实时 Copilot 目录自动检测。
copilot-acp — Copilot ACP 代理后端。将本地 Copilot CLI 作为子进程启动:
hermes chat --provider copilot-acp --model copilot-acp
# 需要 GitHub Copilot CLI 在 PATH 中,且已有 `copilot login` 会话永久配置:
model:
provider: "copilot"
default: "gpt-5.4"| 环境变量 | 说明 |
|---|---|
COPILOT_GITHUB_TOKEN | Copilot API 的 GitHub token(最高优先级) |
HERMES_COPILOT_ACP_COMMAND | 覆盖 Copilot CLI 二进制路径(默认:copilot) |
HERMES_COPILOT_ACP_ARGS | 覆盖 ACP 参数(默认:--acp --stdio) |
一等 API Key 提供商
这些提供商有内置支持,使用专用 provider ID。设置 API Key 并使用 --provider 选择:
# NovitaAI Model API
hermes chat --provider novita --model moonshotai/kimi-k2.5
# 需要:NOVITA_API_KEY 写入 ~/.hermes/.env
# z.ai / 智谱 GLM
hermes chat --provider zai --model glm-5
# 需要:GLM_API_KEY 写入 ~/.hermes/.env
# Kimi / Moonshot AI(国际:api.moonshot.ai)
hermes chat --provider kimi-coding --model kimi-for-coding
# 需要:KIMI_API_KEY 写入 ~/.hermes/.env
# Kimi / Moonshot AI(中国:api.moonshot.cn)
hermes chat --provider kimi-coding-cn --model kimi-k2.5
# 需要:KIMI_CN_API_KEY 写入 ~/.hermes/.env
# MiniMax(全球端点)
hermes chat --provider minimax --model MiniMax-M2.7
# 需要:MINIMAX_API_KEY 写入 ~/.hermes/.env
# MiniMax(中国端点)
hermes chat --provider minimax-cn --model MiniMax-M2.7
# 需要:MINIMAX_CN_API_KEY 写入 ~/.hermes/.env
# 阿里云 / DashScope(Qwen 模型)
hermes chat --provider alibaba --model qwen3.5-plus
# 需要:DASHSCOPE_API_KEY 写入 ~/.hermes/.env
# 小米 MiMo
hermes chat --provider xiaomi --model mimo-v2-pro
# 需要:XIAOMI_API_KEY 写入 ~/.hermes/.env
# 腾讯 TokenHub(Hy3 Preview)
hermes chat --provider tencent-tokenhub --model hy3-preview
# 需要:TOKENHUB_API_KEY 写入 ~/.hermes/.env
# Arcee AI(Trinity 模型)
hermes chat --provider arcee --model trinity-large-thinking
# 需要:ARCEEAI_API_KEY 写入 ~/.hermes/.env
# GMI Cloud
# 使用 GMI 的 /v1/models 端点返回的确切模型 ID。
hermes chat --provider gmi --model zai-org/GLM-5.1-FP8
# 需要:GMI_API_KEY 写入 ~/.hermes/.env或在 config.yaml 中永久设置提供商:
model:
provider: "gmi"
default: "zai-org/GLM-5.1-FP8"Base URL 可通过 NOVITA_BASE_URL、GLM_BASE_URL、KIMI_BASE_URL、MINIMAX_BASE_URL、MINIMAX_CN_BASE_URL、DASHSCOPE_BASE_URL、XIAOMI_BASE_URL、GMI_BASE_URL 或 TOKENHUB_BASE_URL 环境变量覆盖。
Z.AI 端点自动检测说明:使用 Z.AI / GLM 提供商时,Hermes 自动探测多个端点(全球、中国、编程变体)以找到接受你 API Key 的端点。无需手动设置
GLM_BASE_URL— 可用端点会被自动检测并缓存。
xAI(Grok)— Responses API + Prompt Caching
xAI 通过 Responses API(codex_responses 传输层)接入,为 Grok 4 模型提供自动推理支持 — 无需 reasoning_effort 参数,服务器默认推理。在 ~/.hermes/.env 中设置 XAI_API_KEY,并在 hermes model 中选择 xAI,或直接在 /model 中输入 grok 作为快捷方式,如 grok-4-1-fast-reasoning。
SuperGrok 订阅者可以通过浏览器 OAuth 登录,无需使用 API Key — 在 hermes model 中选择 xAI Grok OAuth (SuperGrok Subscription),或运行 hermes auth add xai-oauth。同一 OAuth bearer token 会被直接到 xAI 的工具(TTS、图像生成、视频生成、转录)自动复用。完整流程参见 xAI Grok OAuth 指南 — 如果 Hermes 运行在远程主机上,还需参阅 SSH/远程主机上的 OAuth 了解所需的 ssh -L 隧道。
当使用 xAI 作为提供商时(任何包含 x.ai 的 base URL),Hermes 通过在每个 API 请求中发送 x-grok-conv-id 头部自动启用 prompt caching。这将会话中的请求路由到同一服务器,使 xAI 基础设施能复用缓存的系统 prompt 和对话历史。
无需配置 — 当检测到 xAI 端点且有可用会话 ID 时,缓存自动激活。这减少了多轮对话的延迟和成本。
xAI 还提供专用 TTS 端点(/v1/tts)。在 hermes tools → Voice & TTS 中选择 xAI TTS,或参见 语音与 TTS 页面了解配置。
NovitaAI
NovitaAI 是面向开发者和 Agent 的 AI 原生云平台。其三条产品线为:Model API(200+ 模型)、Agent Sandbox(构建和运行 AI Agent)和 GPU Cloud(可扩展计算),全部从一个平台提供。
# 使用任意可用模型
hermes chat --provider novita --model moonshotai/kimi-k2.5
# 需要:NOVITA_API_KEY 写入 ~/.hermes/.env
# 短别名
hermes chat --provider novita-ai --model deepseek/deepseek-v3-0324或在 config.yaml 中永久设置:
model:
provider: "novita"
default: "moonshotai/kimi-k2.5"
base_url: "https://api.novita.ai/openai/v1"在 novita.ai/settings/key-management 获取你的 API Key。Base URL 可通过 NOVITA_BASE_URL 覆盖。
Ollama Cloud — 托管 Ollama 模型,OAuth + API Key
Ollama Cloud 托管与本地 Ollama 相同的开源模型目录,但无需 GPU。在 hermes model 中选择 Ollama Cloud,粘贴从 ollama.com/settings/keys 获取的 API Key,Hermes 会自动发现可用模型。
hermes model
# → 选择 "Ollama Cloud"
# → 粘贴你的 OLLAMA_API_KEY
# → 从发现的模型中选择(gpt-oss:120b, glm-4.6:cloud, qwen3-coder:480b-cloud 等)或直接配置 config.yaml:
model:
provider: "ollama-cloud"
default: "gpt-oss:120b"模型目录从 ollama.com/v1/models 动态获取并缓存一小时。model:tag 格式(如 qwen3-coder:480b-cloud)在标准化过程中保持不变 — 不要使用破折号。
Ollama Cloud 与本地 Ollama 的区别:两者都使用相同的 OpenAI 兼容 API。Cloud 是一等提供商(
--provider ollama-cloud,OLLAMA_API_KEY);本地 Ollama 通过自定义端点流程访问(base URLhttp://localhost:11434/v1,无需 Key)。大型模型无法本地运行时使用 Cloud;注重隐私或离线工作时使用本地。
AWS Bedrock
通过 AWS Bedrock 使用 Anthropic Claude、Amazon Nova、DeepSeek v3.2、Meta Llama 4 等模型。使用 AWS SDK(boto3)凭证链 — 无需 API Key,只需标准 AWS 认证。
# 最简方式 — ~/.aws/credentials 中的命名配置
hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6
# 或使用显式环境变量
AWS_PROFILE=myprofile AWS_REGION=us-east-1 hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6或永久配置 config.yaml:
model:
provider: "bedrock"
default: "us.anthropic.claude-sonnet-4-6"
bedrock:
region: "us-east-1" # 或设置 AWS_REGION
# profile: "myprofile" # 或设置 AWS_PROFILE
# discovery: true # 从 IAM 自动发现区域
# guardrail: # 可选 Bedrock Guardrails
# guardrail_identifier: "your-guardrail-id"
# guardrail_version: "DRAFT"认证使用标准 boto3 链:显式 AWS_ACCESS_KEY_ID/AWS_SECRET_ACCESS_KEY、~/.aws/credentials 中的 AWS_PROFILE、EC2/ECS/Lambda 上的 IAM 角色、IMDS 或 SSO。如果你已通过 AWS CLI 认证,则无需任何环境变量。
Bedrock 底层使用 Converse API — 请求被转换为 Bedrock 的模型无关格式,因此相同配置适用于 Claude、Nova、DeepSeek 和 Llama 模型。仅在你调用非默认区域端点时设置 BEDROCK_BASE_URL。
参见 AWS Bedrock 指南 了解 IAM 设置、区域选择和跨区域推理的完整说明。
Qwen Portal(OAuth)
阿里巴巴 Qwen Portal,支持基于浏览器的 OAuth 登录。在 hermes model 中选择 Qwen OAuth (Portal),通过浏览器登录,Hermes 持久化 refresh token。
hermes model
# → 选择 "Qwen OAuth (Portal)"
# → 浏览器打开;使用你的阿里云账号登录
# → 确认 — 凭证保存到 ~/.hermes/auth.json
hermes chat # 使用 portal.qwen.ai/v1 端点或配置 config.yaml:
model:
provider: "qwen-oauth"
default: "qwen3-coder-plus"仅在 portal 端点迁移时设置 HERMES_QWEN_BASE_URL(默认:https://portal.qwen.ai/v1)。
Qwen OAuth 与 DashScope(阿里云)的区别:
qwen-oauth使用面向消费者的 Qwen Portal 与 OAuth 登录 — 适合个人用户。alibaba提供商使用 DashScope 的企业 API 与DASHSCOPE_API_KEY— 适合程序化/生产工作负载。两者都路由到 Qwen 系列模型,但位于不同端点。
阿里云 Coding Plan
如果你订阅了阿里巴巴的 Coding Plan(与标准 DashScope API 访问分开的定价 SKU),Hermes 将其暴露为独立的一等提供商:alibaba-coding-plan。端点:https://coding-intl.dashscope.aliyuncs.com/v1。它与常规 alibaba 提供商一样兼容 OpenAI,但使用不同的 base URL 和计费面。
model:
provider: alibaba_coding # alibaba-coding-plan 的别名
model: qwen3-coder-plus或从 CLI:
hermes chat --provider alibaba_coding --model qwen3-coder-plusalibaba_coding 使用与你 alibaba 条目相同的 DASHSCOPE_API_KEY — 无需单独的 Key,只是不同的路由目标。在此提供商注册之前,在 config.yaml 中设置 provider: alibaba_coding 的用户会静默回退到 OpenRouter 路由。
MiniMax(OAuth)
MiniMax-M2.7 通过浏览器 OAuth 登录 — 无需 API Key。在 hermes model 中选择 MiniMax (OAuth),通过浏览器登录,Hermes 持久化 access + refresh token。底层使用 Anthropic Messages 兼容端点(/anthropic)。
hermes model
# → 选择 "MiniMax (OAuth)"
# → 浏览器打开;使用你的 MiniMax 账户登录(全球或中国区域)
# → 确认 — 凭证保存到 ~/.hermes/auth.json
hermes chat # 使用 api.minimax.io/anthropic 端点或配置 config.yaml:
model:
provider: "minimax-oauth"
default: "MiniMax-M2.7"支持的模型:MiniMax-M2.7(主模型)和 MiniMax-M2.7-highspeed(作为默认辅助模型接入)。OAuth 路径忽略 MINIMAX_API_KEY / MINIMAX_BASE_URL。
MiniMax OAuth 与 API Key 的区别:
minimax-oauth使用 MiniMax 面向消费者的 Portal 与 OAuth 登录 — 无需计费设置。minimax和minimax-cn提供商使用MINIMAX_API_KEY/MINIMAX_CN_API_KEY— 用于程序化访问。完整说明参见 MiniMax OAuth 指南。
NVIDIA NIM
通过 build.nvidia.com(免费 API Key)或本地 NIM 端点使用 Nemotron 等开源模型。
# 云端(build.nvidia.com)
hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b
# 需要:NVIDIA_API_KEY 写入 ~/.hermes/.env
# 本地 NIM 端点 — 覆盖 base URL
NVIDIA_BASE_URL=http://localhost:8000/v1 hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b或永久配置 config.yaml:
model:
provider: "nvidia"
default: "nvidia/nemotron-3-super-120b-a12b"本地 NIM 提示:对于本地部署(DGX Spark、本地 GPU),设置
NVIDIA_BASE_URL=http://localhost:8000/v1。NIM 暴露与 build.nvidia.com 相同的 OpenAI 兼容 chat completions API,因此在云和本地之间切换只需更改一行环境变量。
GMI Cloud
通过 GMI Cloud 使用开放和推理模型 — OpenAI 兼容 API,API Key 认证。
# GMI Cloud
hermes chat --provider gmi --model deepseek-ai/DeepSeek-R1
# 需要:GMI_API_KEY 写入 ~/.hermes/.env或永久配置 config.yaml:
model:
provider: "gmi"
default: "deepseek-ai/DeepSeek-R1"Base URL 可通过 GMI_BASE_URL 覆盖(默认:https://api.gmi-serving.com/v1)。
StepFun
通过 StepFun 使用 Step 系列模型 — OpenAI 兼容 API,API Key 认证。
# StepFun
hermes chat --provider stepfun --model step-3-mini
# 需要:STEPFUN_API_KEY 写入 ~/.hermes/.env或永久配置 config.yaml:
model:
provider: "stepfun"
default: "step-3-mini"Base URL 可通过 STEPFUN_BASE_URL 覆盖(默认:https://api.stepfun.com/v1)。
Hugging Face Inference Providers
Hugging Face Inference Providers 通过统一的 OpenAI 兼容端点(router.huggingface.co/v1)路由到 20+ 开放模型。请求自动路由到最快的可用后端(Groq、Together、SambaNova 等),并自动故障转移。
# 使用任意可用模型
hermes chat --provider huggingface --model Qwen/Qwen3-235B-A22B-Thinking-2507
# 需要:HF_TOKEN 写入 ~/.hermes/.env
# 短别名
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2或永久配置 config.yaml:
model:
provider: "huggingface"
default: "Qwen/Qwen3-235B-A22B-Thinking-2507"在 huggingface.co/settings/tokens 获取你的 Token — 确保启用 "Make calls to Inference Providers" 权限。包含免费层(每月 $0.10 额度,提供商费率无加价)。
你可以在模型名称后追加路由后缀::fastest(默认)、:cheapest 或 :provider_name 来强制指定后端。
Base URL 可通过 HF_BASE_URL 覆盖。
自定义与自托管 LLM 提供商
Hermes Agent 可与任何 OpenAI 兼容的 API 端点配合使用。如果服务器实现了 /v1/chat/completions,你就可以将 Hermes 指向它。这意味着你可以使用本地模型、GPU 推理服务器、多提供商路由器或任何第三方 API。
通用设置
三种方式配置自定义端点:
交互式设置(推荐):
hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入:API base URL、API Key、模型名称手动配置(config.yaml):
# 在 ~/.hermes/config.yaml 中
model:
default: your-model-name
provider: custom
base_url: http://localhost:8000/v1
api_key: your-key-or-leave-empty-for-local旧版环境变量警告:
.env中的OPENAI_BASE_URL和LLM_MODEL已移除。Hermes 的任何部分都不会读取它们 —config.yaml是模型和端点配置的唯一事实来源。如果你的.env中有过期条目,它们会在下次hermes setup或配置迁移时自动清除。使用hermes model或直接编辑config.yaml。
两种方式都会持久化到 config.yaml,它是模型、提供商和 base URL 的事实来源。
使用 /model 切换模型
hermes model与/model的区别:hermes model(在终端中运行,不在任何聊天会话内)是完整的提供商设置向导。用于添加新提供商、运行 OAuth 流程、输入 API Key 和配置自定义端点。
/model(在活跃的 Hermes 聊天会话中输入)只能在你已设置的提供商和模型之间切换。它不能添加新提供商、运行 OAuth 或提示输入 API Key。如果你只配置了一个提供商(如 OpenRouter),/model只会显示该提供商的模型。要添加新提供商: 退出会话(
Ctrl+C或/quit),运行hermes model,设置新提供商,然后开始新会话。
配置至少一个自定义端点后,你可以在会话中切换模型:
/model custom:qwen-2.5 # 切换到自定义端点上的模型
/model custom # 从端点自动检测模型
/model openrouter:claude-sonnet-4 # 切换回云端提供商如果你配置了命名自定义提供商(见下文),使用三段式语法:
/model custom:local:qwen-2.5 # 使用 "local" 自定义提供商和模型 qwen-2.5
/model custom:work:llama3 # 使用 "work" 自定义提供商和 llama3切换提供商时,Hermes 将 base URL 和提供商持久化到配置中,使更改在重启后保持。当从自定义端点切换到内置提供商时,过期的 base URL 会自动清除。
/model custom(裸写,无模型名)会查询端点的/modelsAPI 并在只加载了一个模型时自动选择。适用于运行单个模型的本地服务器。
以下所有部分都遵循相同模式 — 只需更改 URL、Key 和模型名称。
Ollama — 本地模型,零配置
Ollama 用一条命令即可在本地运行开源模型。最适合:快速本地实验、隐私敏感工作、离线使用。通过 OpenAI 兼容 API 支持 tool calling。
# 安装并运行模型
ollama pull qwen2.5-coder:32b
ollama serve # 在端口 11434 启动然后配置 Hermes:
hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL:http://localhost:11434/v1
# 跳过 API Key(Ollama 不需要)
# 输入模型名称(如 qwen2.5-coder:32b)或直接配置 config.yaml:
model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768 # 见下方警告Ollama 默认上下文长度非常低:Ollama 默认不使用模型的完整上下文窗口。根据你的 VRAM,默认值为:
| 可用 VRAM | 默认上下文 |
|---|---|
| 低于 24 GB | 4,096 tokens |
| 24-48 GB | 32,768 tokens |
| 48+ GB | 256,000 tokens |
对于使用工具的 Agent,你至少需要 16k-32k 上下文。在 4k 下,仅系统 prompt + 工具 schema 就可能填满窗口,没有空间留给对话。
如何增加(选择一种):
# 方式 1:通过环境变量全局设置(推荐)
OLLAMA_CONTEXT_LENGTH=32768 ollama serve
# 方式 2:对于 systemd 管理的 Ollama
sudo systemctl edit ollama.service
# 添加:Environment="OLLAMA_CONTEXT_LENGTH=32768"
# 然后:sudo systemctl daemon-reload && sudo systemctl restart ollama
# 方式 3:烘焙到自定义模型中(每个模型持久化)
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile你不能通过 OpenAI 兼容 API(/v1/chat/completions)设置上下文长度。必须在服务器端或通过 Modelfile 配置。这是将 Ollama 与 Hermes 等工具集成时最常见的问题来源。
验证上下文设置是否正确:
ollama ps
# 查看 CONTEXT 列 — 应显示你配置的值使用
ollama list列出可用模型。使用ollama pull <model>从 Ollama 库 拉取任意模型。Ollama 自动处理 GPU 卸载 — 大多数设置无需配置。
vLLM — 高性能 GPU 推理
vLLM 是生产 LLM 服务的标准。最适合:GPU 硬件上的最大吞吐量、服务大模型、连续批处理。
pip install vllm
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--port 8000 \
--max-model-len 65536 \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser hermes然后配置 Hermes:
hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL:http://localhost:8000/v1
# 跳过 API Key(或如果你用 --api-key 配置了 vLLM 则输入一个)
# 输入模型名称:meta-llama/Llama-3.1-70B-Instruct上下文长度:vLLM 默认读取模型的 max_position_embeddings。如果超出 GPU 内存,会报错并要求你降低 --max-model-len。你也可以使用 --max-model-len auto 自动找到适合的最大值。设置 --gpu-memory-utilization 0.95(默认 0.9)以将更多上下文塞入 VRAM。
Tool calling 需要显式标志:
| 标志 | 用途 |
|---|---|
--enable-auto-tool-choice | tool_choice: "auto" 所需(Hermes 的默认值) |
--tool-call-parser <name> | 模型 tool call 格式的解析器 |
支持的解析器:hermes(Qwen 2.5、Hermes 2/3)、llama3_json(Llama 3.x)、mistral、deepseek_v3、deepseek_v31、xlam、pythonic。没有这些标志,tool call 将无法工作 — 模型会将 tool call 输出为文本。
vLLM 支持人类可读的大小:
--max-model-len 64k(小写 k = 1000,大写 K = 1024)。
SGLang — 使用 RadixAttention 的快速推理
SGLang 是 vLLM 的替代方案,使用 RadixAttention 实现 KV 缓存复用。最适合:多轮对话(前缀缓存)、约束解码、结构化输出。
pip install "sglang[all]"
python -m sglang.launch_server \
--model meta-llama/Llama-3.1-70B-Instruct \
--port 30000 \
--context-length 65536 \
--tp 2 \
--tool-call-parser qwen然后配置 Hermes:
hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL:http://localhost:30000/v1
# 输入模型名称:meta-llama/Llama-3.1-70B-Instruct上下文长度:SGLang 默认从模型配置读取。使用 --context-length 覆盖。如果需要超过模型声明的最大值,设置 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1。
Tool calling:使用 --tool-call-parser 配合适合你模型系列的解析器:qwen(Qwen 2.5)、llama3、llama4、deepseekv3、mistral、glm。没有此标志,tool call 会作为纯文本返回。
SGLang 默认最大输出仅为 128 tokens:如果响应似乎被截断,请在请求中添加
max_tokens或在服务器上设置--default-max-tokens。如果请求中未指定,SGLang 的默认值仅为每个响应 128 tokens。
llama.cpp / llama-server — CPU 和 Metal 推理
llama.cpp 在 CPU、Apple Silicon(Metal)和消费级 GPU 上运行量化模型。最适合:在没有数据中心 GPU 的情况下运行模型、Mac 用户、边缘部署。
# 构建并启动 llama-server
cmake -B build && cmake --build build --config Release
./build/bin/llama-server \
--jinja -fa \
-c 32768 \
-ngl 99 \
-m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
--port 8080 --host 0.0.0.0上下文长度(-c):最新构建默认为 0,即从 GGUF 元数据读取模型的训练上下文。对于训练上下文为 128k+ 的模型,这可能因尝试分配完整 KV 缓存而 OOM。将 -c 显式设置为你需要的值(32k-64k 是 Agent 使用的良好范围)。如果使用并行槽(-np),总上下文在槽之间分配 — 使用 -c 32768 -np 4 时,每个槽仅获得 8k。
然后配置 Hermes 指向它:
hermes model
# 选择 "Custom endpoint (self-hosted / VLLM / etc.)"
# 输入 URL:http://localhost:8080/v1
# 跳过 API Key(本地服务器不需要)
# 输入模型名称 — 或留空以在只加载一个模型时自动检测这会将端点保存到 config.yaml,使其在会话间持久化。
--jinja是 tool calling 所必需的:没有--jinja,llama-server 会完全忽略tools参数。模型会尝试在其响应文本中写入 JSON 来调用工具,但 Hermes 不会将其识别为 tool call — 你会看到原始 JSON 如{"name": "web_search", ...}作为消息打印,而不是实际搜索。原生 tool calling 支持(最佳性能):Llama 3.x、Qwen 2.5(包括 Coder)、Hermes 2/3、Mistral、DeepSeek、Functionary。所有其他模型使用通用处理程序,可用但效率可能较低。完整列表参见 llama.cpp function calling 文档。
你可以通过检查
http://localhost:8080/props验证 tool 支持是否激活 —chat_template字段应该存在。
从 Hugging Face 下载 GGUF 模型。Q4_K_M 量化提供质量与内存使用的最佳平衡。
LM Studio — 本地模型的桌面应用
LM Studio 是一个用于运行本地模型的桌面应用,带有 GUI。最适合:偏好可视化界面的用户、快速模型测试、macOS/Windows/Linux 上的开发者。
从 LM Studio 应用启动服务器(Developer 标签 → Start Server),或使用 CLI:
lms server start # 在端口 1234 启动
lms load qwen2.5-coder --context-length 32768然后配置 Hermes:
hermes model
# 选择 "LM Studio"
# 按 Enter 使用 http://localhost:1234/v1
# 从发现的模型中选择一个
# 如果启用了 LM Studio 服务器认证,在提示时输入 LM_API_KEYHermes 会自动以 64K 上下文长度加载 LM Studio 模型。
在 LM Studio 中更改上下文长度:
- 点击模型选择器旁的齿轮图标
- 将 "Context Length" 设置为至少 64000 以获得流畅体验
- 重新加载模型使更改生效
- 如果你的机器无法容纳 64000,考虑使用更小的模型配合更大的上下文长度。
或者使用 CLI:lms load model-name --context-length 64000
你可以使用 CLI 估算模型是否适合:lms load model-name --context-length 64000 --estimate-only
要设置每个模型的持久默认值:My Models 标签 → 模型上的齿轮图标 → 设置上下文大小。
Tool calling:自 LM Studio 0.3.6 起支持。具有原生 tool-call 训练的模型(Qwen 2.5、Llama 3.x、Mistral、Hermes)会被自动检测并显示工具徽章。其他模型使用通用回退,可靠性可能较低。
WSL2 网络(Windows 用户)
由于 Hermes Agent 需要 Unix 环境,Windows 用户在 WSL2 中运行它。如果你的模型服务器(Ollama、LM Studio 等)运行在 Windows 宿主机上,你需要桥接网络 — WSL2 使用虚拟网络适配器和自己的子网,因此 WSL2 中的 localhost 指的是 Linux VM,不是 Windows 宿主机。
都在 WSL2 中?没问题。 如果你的模型服务器也在 WSL2 中运行(vLLM、SGLang 和 llama-server 的常见情况),
localhost按预期工作 — 它们共享相同的网络命名空间。跳过此节。
方式 1:镜像网络模式(推荐)
在 Windows 11 22H2+ 上可用,镜像模式使 localhost 在 Windows 和 WSL2 之间双向工作 — 最简单的解决方案。
-
创建或编辑
%USERPROFILE%\.wslconfig(如C:\Users\YourName\.wslconfig):ini[wsl2] networkingMode=mirrored -
从 PowerShell 重启 WSL:
powershellwsl --shutdown -
重新打开 WSL2 终端。
localhost现在可以访问 Windows 服务:bashcurl http://localhost:11434/v1/models # Windows 上的 Ollama — 可用
Hyper-V 防火墙说明:在某些 Windows 11 构建版本上,Hyper-V 防火墙默认阻止镜像连接。如果启用镜像模式后
localhost仍不工作,在管理员 PowerShell 中运行:powershellSet-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5-438A-A0B2-2B479E8F2E90}' -DefaultInboundAction Allow
方式 2:使用 Windows 宿主机 IP(Windows 10 / 较旧构建版本)
如果无法使用镜像模式,从 WSL2 内部找到 Windows 宿主机 IP 并使用它代替 localhost:
# 获取 Windows 宿主机 IP(WSL2 虚拟网络的默认网关)
ip route show | grep -i default | awk '{ print $3 }'
# 示例输出:172.29.192.1在 Hermes 配置中使用该 IP:
model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://172.29.192.1:11434/v1 # Windows 宿主机 IP,不是 localhost动态辅助:宿主机 IP 在 WSL2 重启后可能改变。你可以在 shell 中动态获取:
bashexport WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }') echo "Windows host at: $WSL_HOST" curl http://$WSL_HOST:11434/v1/models # 测试 Ollama或使用机器的 mDNS 名称(需要 WSL2 中安装
libnss-mdns):bashsudo apt install libnss-mdns curl http://$(hostname).local:11434/v1/models
服务器绑定地址(NAT 模式必需)
如果你使用方式 2(NAT 模式与宿主机 IP),Windows 上的模型服务器必须接受来自 127.0.0.1 以外的连接。默认情况下,大多数服务器只监听 localhost — NAT 模式下的 WSL2 连接来自不同的虚拟子网,会被拒绝。在镜像模式下,localhost 直接映射,因此默认的 127.0.0.1 绑定可以正常工作。
| 服务器 | 默认绑定 | 修复方法 |
|---|---|---|
| Ollama | 127.0.0.1 | 在启动 Ollama 前设置 OLLAMA_HOST=0.0.0.0 环境变量(Windows 的系统设置 → 环境变量,或编辑 Ollama 服务) |
| LM Studio | 127.0.0.1 | 在 Developer 标签 → Server 设置中启用 "Serve on Network" |
| llama-server | 127.0.0.1 | 在启动命令中添加 --host 0.0.0.0 |
| vLLM | 0.0.0.0 | 默认已绑定所有接口 |
| SGLang | 127.0.0.1 | 在启动命令中添加 --host 0.0.0.0 |
Windows 上的 Ollama(详细): Ollama 作为 Windows 服务运行。设置 OLLAMA_HOST:
- 打开 系统属性 → 环境变量
- 添加新的系统变量:
OLLAMA_HOST=0.0.0.0 - 重启 Ollama 服务(或重启电脑)
Windows 防火墙
Windows 防火墙将 WSL2 视为单独的网络(NAT 和镜像模式都是)。如果上述步骤后连接仍失败,为模型服务器的端口添加防火墙规则:
# 在管理员 PowerShell 中运行 — 将 PORT 替换为你的服务器端口
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434常见端口:Ollama 11434、vLLM 8000、SGLang 30000、llama-server 8080、LM Studio 1234。
快速验证
从 WSL2 内部测试你能否访问模型服务器:
# 将 URL 替换为你的服务器地址和端口
curl http://localhost:11434/v1/models # 镜像模式
curl http://172.29.192.1:11434/v1/models # NAT 模式(使用你的实际宿主机 IP)如果你收到列出模型的 JSON 响应,就说明正常了。在 Hermes 配置中使用相同的 URL 作为 base_url。
本地模型故障排除
这些问题影响所有与 Hermes 配合使用的本地推理服务器。
从 WSL2 到 Windows 宿主机模型服务器的 "Connection refused"
如果你在 WSL2 中运行 Hermes,而模型服务器在 Windows 宿主机上,http://localhost:<port> 在 WSL2 的默认 NAT 网络模式下不会工作。参见上方 WSL2 网络 了解修复方法。
Tool call 显示为文本而非执行
模型输出类似 {"name": "web_search", "arguments": {...}} 的内容作为消息,而不是实际调用工具。
原因: 你的服务器未启用 tool calling,或模型不支持通过服务器的 tool calling 实现。
| 服务器 | 修复方法 |
|---|---|
| llama.cpp | 在启动命令中添加 --jinja |
| vLLM | 添加 --enable-auto-tool-choice --tool-call-parser hermes |
| SGLang | 添加 --tool-call-parser qwen(或适当的解析器) |
| Ollama | 默认启用 tool calling — 确保你的模型支持(用 ollama show model-name 检查) |
| LM Studio | 更新到 0.3.6+ 并使用支持原生 tool 的模型 |
模型似乎遗忘上下文或给出不连贯的回复
原因: 上下文窗口太小。当对话超出上下文限制时,大多数服务器会静默丢弃较早的消息。Hermes 的系统 prompt + 工具 schema 仅就可能使用 4k-8k tokens。
诊断:
# 检查 Hermes 认为的上下文大小
# 查看启动行:"Context limit: X tokens"
# 检查服务器的实际上下文
# Ollama:ollama ps(CONTEXT 列)
# llama.cpp:curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM:检查启动参数中的 --max-model-len修复: 将上下文设置为至少 32,768 tokens 以用于 Agent 使用。参见上方每个服务器部分的特定标志。
启动时 "Context limit: 2048 tokens"
Hermes 从服务器的 /v1/models 端点自动检测上下文长度。如果服务器报告一个低值(或不报告),Hermes 使用模型声明的限制,这可能是错误的。
修复: 在 config.yaml 中显式设置:
model:
default: your-model
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768响应中途被截断
可能原因:
- 服务器上的低输出上限(
max_tokens) — SGLang 默认每个响应仅 128 tokens。在服务器上设置--default-max-tokens或在 config.yaml 中配置model.max_tokens。注意:max_tokens仅控制响应长度 — 与对话历史可以多长无关(那是context_length)。 - 上下文耗尽 — 模型填满了上下文窗口。增加
model.context_length或在 Hermes 中启用上下文压缩。
LiteLLM Proxy — 多提供商网关
LiteLLM 是一个 OpenAI 兼容代理,将 100+ LLM 提供商统一在单一 API 后。最适合:无需更改配置即可切换提供商、负载均衡、回退链、预算控制。
# 安装并启动
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000
# 或使用配置文件配置多个模型:
litellm --config litellm_config.yaml --port 4000然后通过 hermes model → Custom endpoint → http://localhost:4000/v1 配置 Hermes。
带回退的示例 litellm_config.yaml:
model_list:
- model_name: "best"
litellm_params:
model: anthropic/claude-sonnet-4
api_key: sk-ant-...
- model_name: "best"
litellm_params:
model: openai/gpt-4o
api_key: sk-...
router_settings:
routing_strategy: "latency-based-routing"ClawRouter — 成本优化路由
ClawRouter 由 BlockRunAI 开发,是一个本地路由代理,根据查询复杂度自动选择模型。它跨 14 个维度对请求分类,并路由到能处理任务的最便宜模型。支付通过 USDC 加密货币(无需 API Key)。
# 安装并启动
npx @blockrun/clawrouter # 在端口 8402 启动然后通过 hermes model → Custom endpoint → http://localhost:8402/v1 → 模型名称 blockrun/auto 配置 Hermes。
路由配置:
| 配置 | 策略 | 节省 |
|---|---|---|
blockrun/auto | 平衡质量/成本 | 74-100% |
blockrun/eco | 尽可能最便宜 | 95-100% |
blockrun/premium | 最佳质量模型 | 0% |
blockrun/free | 仅免费模型 | 100% |
blockrun/agentic | 优化 tool 使用 | 变化 |
ClawRouter 需要在 Base 或 Solana 上有 USDC 资金的钱包进行支付。所有请求通过 BlockRun 的后端 API 路由。运行
npx @blockrun/clawrouter doctor检查钱包状态。
其他兼容提供商
任何具有 OpenAI 兼容 API 的服务都可以使用。一些热门选项:
| 提供商 | Base URL | 说明 |
|---|---|---|
| Together AI | https://api.together.xyz/v1 | 云端托管的开源模型 |
| Groq | https://api.groq.com/openai/v1 | 超快推理 |
| DeepSeek | https://api.deepseek.com/v1 | DeepSeek 模型 |
| Fireworks AI | https://api.fireworks.ai/inference/v1 | 快速开源模型托管 |
| GMI Cloud | https://api.gmi-serving.com/v1 | 托管 OpenAI 兼容推理 |
| Cerebras | https://api.cerebras.ai/v1 | 晶圆级芯片推理 |
| Mistral AI | https://api.mistral.ai/v1 | Mistral 模型 |
| OpenAI | https://api.openai.com/v1 | 直接 OpenAI 访问 |
| Azure OpenAI | https://YOUR.openai.azure.com/ | 企业版 OpenAI |
| LocalAI | http://localhost:8080/v1 | 自托管,多模型 |
| Jan | http://localhost:1337/v1 | 带本地模型的桌面应用 |
通过 hermes model → Custom endpoint 配置以上任意服务,或在 config.yaml 中配置:
model:
default: meta-llama/Llama-3.1-70B-Instruct-Turbo
provider: custom
base_url: https://api.together.xyz/v1
api_key: your-together-key上下文长度检测
两个设置,容易混淆:
context_length是总上下文窗口 — 输入和输出 tokens 的合并预算(如 Claude Opus 4.6 的 200,000)。Hermes 用它来决定何时压缩历史记录和验证 API 请求。
model.max_tokens是输出上限 — 模型在单次响应中可能生成的最大 token 数。它与对话历史可以多长完全无关。行业标准名称max_tokens是常见的混淆来源;Anthropic 的原生 API 已将其重命名为max_output_tokens以提高清晰度。当自动检测错误获取窗口大小时设置
context_length。 仅当你需要限制单个响应的长度时设置model.max_tokens。
Hermes 使用多源解析链来检测模型和提供商的正确上下文窗口:
- 配置覆盖 — config.yaml 中的
model.context_length(最高优先级) - 自定义提供商每个模型 —
custom_providers[].models.<id>.context_length - 持久缓存 — 之前发现的值(重启后保留)
- 端点
/models— 查询服务器 API(本地/自定义端点) - Anthropic
/v1/models— 查询 Anthropic API 获取max_input_tokens(仅限 API Key 用户) - OpenRouter API — OpenRouter 的实时模型元数据
- Nous Portal — 将 Nous 模型 ID 后缀匹配到 OpenRouter 元数据
- models.dev — 社区维护的注册表,包含 100+ 提供商的 3800+ 模型的提供商特定上下文长度
- 回退默认值 — 宽泛的模型系列模式(默认 128K)
对于大多数设置,这开箱即用。该系统是提供商感知的 — 相同模型可以有不同的上下文限制,取决于由谁提供(例如 claude-opus-4.6 在 Anthropic 直连上是 1M,但在 GitHub Copilot 上是 128K)。
要显式设置上下文长度,在模型配置中添加 context_length:
model:
default: "qwen3.5:9b"
base_url: "http://localhost:8080/v1"
context_length: 131072 # tokens对于自定义端点,你也可以按模型设置上下文长度:
custom_providers:
- name: "My Local LLM"
base_url: "http://localhost:11434/v1"
models:
qwen3.5:27b:
context_length: 32768
deepseek-r1:70b:
context_length: 65536hermes model 在配置自定义端点时会提示输入上下文长度。留空则自动检测。
何时手动设置:
- 你正在使用 Ollama,且自定义的
num_ctx低于模型最大值- 你想将上下文限制在模型最大值以下(如在 128k 模型上使用 8k 以节省 VRAM)
- 你在代理后面运行,该代理不暴露
/v1/models
命名自定义提供商
如果你使用多个自定义端点(如本地开发服务器和远程 GPU 服务器),可以在 config.yaml 中定义命名自定义提供商:
custom_providers:
- name: local
base_url: http://localhost:8080/v1
# api_key 已省略 — Hermes 对无密钥的本地服务器使用 "no-key-required"
- name: work
base_url: https://gpu-server.internal.corp/v1
key_env: CORP_API_KEY
api_mode: chat_completions # 可选,从 URL 自动检测
- name: anthropic-proxy
base_url: https://proxy.example.com/anthropic
key_env: ANTHROPIC_PROXY_KEY
api_mode: anthropic_messages # 用于 Anthropic 兼容代理在会话中使用三段式语法切换:
/model custom:local:qwen-2.5 # 使用 "local" 端点和 qwen-2.5
/model custom:work:llama3-70b # 使用 "work" 端点和 llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4 # 使用代理你也可以从交互式 hermes model 菜单中选择命名自定义提供商。
实战手册:Together AI、Groq、Perplexity
其他兼容提供商 中列出的云提供商都使用 OpenAI 的 REST 方言,因此它们在 custom_providers: 下的配置方式相同。以下是三个实战示例。每个直接放入 ~/.hermes/config.yaml,对应的 API Key 放入 ~/.hermes/.env。
Together AI
托管开源模型(Llama、MiniMax、Gemma、DeepSeek、Qwen),价格显著低于官方 API。多模型集群的良好默认选择。
# ~/.hermes/config.yaml
custom_providers:
- name: together
base_url: https://api.together.xyz/v1
key_env: TOGETHER_API_KEY
# api_mode: chat_completions # 默认 — 无需设置
model:
default: MiniMaxAI/MiniMax-M2.7 # 或 together.ai/models 中的任意模型
provider: custom:together# ~/.hermes/.env
TOGETHER_API_KEY=your-together-key会话中切换模型:
/model custom:together:meta-llama/Llama-3.3-70B-Instruct-Turbo
/model custom:together:google/gemma-4-31b-it
/model custom:together:deepseek-ai/DeepSeek-V3Together 的 /v1/models 端点可用,因此 hermes model 可以自动发现可用模型。
Groq
超快推理(Llama-3.3-70B 上约 500 tok/s)。模型目录较小,但对延迟敏感的交互使用很有优势。
# ~/.hermes/config.yaml
custom_providers:
- name: groq
base_url: https://api.groq.com/openai/v1
key_env: GROQ_API_KEY
model:
default: llama-3.3-70b-versatile
provider: custom:groq# ~/.hermes/.env
GROQ_API_KEY=your-groq-keyPerplexity
当你想要一个自动进行实时网页搜索和引用的模型时很有用。对可用模型有严格限制 — 查看 perplexity.ai/settings/api 获取当前列表。
# ~/.hermes/config.yaml
custom_providers:
- name: perplexity
base_url: https://api.perplexity.ai
key_env: PERPLEXITY_API_KEY
model:
default: sonar
provider: custom:perplexity# ~/.hermes/.env
PERPLEXITY_API_KEY=your-perplexity-key一个配置中的多个提供商
三个示例可以组合 — 全部一起使用,每轮用 /model custom:<name>:<model> 切换:
custom_providers:
- name: together
base_url: https://api.together.xyz/v1
key_env: TOGETHER_API_KEY
- name: groq
base_url: https://api.groq.com/openai/v1
key_env: GROQ_API_KEY
- name: perplexity
base_url: https://api.perplexity.ai
key_env: PERPLEXITY_API_KEY
model:
default: MiniMaxAI/MiniMax-M2.7
provider: custom:together # 启动时使用 Together;之后自由切换故障排除提示:
- 配置 CLI 验证器修复后,
hermes doctor不应为任何这些名称打印Unknown provider警告。- 如果提供商的
/v1/models端点不可达(Perplexity 是常见情况),hermes model会带警告持久化模型而非硬拒绝 — 参见 #15136。- 要完全跳过
custom_providers:并使用裸provider: custom配合CUSTOM_BASE_URL环境变量,参见 #15103。
选择合适的配置
| 使用场景 | 推荐方案 |
|---|---|
| 只想让它工作 | OpenRouter(默认)或 Nous Portal |
| 本地模型,简单设置 | Ollama |
| 生产 GPU 服务 | vLLM 或 SGLang |
| Mac / 无 GPU | Ollama 或 llama.cpp |
| 多提供商路由 | LiteLLM Proxy 或 OpenRouter |
| 成本优化 | ClawRouter 或 OpenRouter 配合 sort: "price" |
| 最大隐私 | Ollama、vLLM 或 llama.cpp(完全本地) |
| 企业 / Azure | Azure OpenAI 自定义端点 |
| 中国 AI 模型 | z.ai(GLM)、Kimi/Moonshot(kimi-coding 或 kimi-coding-cn)、MiniMax、小米 MiMo 或腾讯 TokenHub(一等提供商) |
你可以随时使用
hermes model切换提供商 — 无需重启。你的对话历史、记忆和技能不受你使用哪个提供商的影响。
可选 API Key
| 功能 | 提供商 | 环境变量 |
|---|---|---|
| 网页抓取 | Firecrawl | FIRECRAWL_API_KEY、FIRECRAWL_API_URL |
| 浏览器自动化 | Browserbase | BROWSERBASE_API_KEY、BROWSERBASE_PROJECT_ID |
| 图像生成 | FAL | FAL_KEY |
| 高级 TTS 语音 | ElevenLabs | ELEVENLABS_API_KEY |
| OpenAI TTS + 语音转录 | OpenAI | VOICE_TOOLS_OPENAI_KEY |
| Mistral TTS + 语音转录 | Mistral | MISTRAL_API_KEY |
| 跨会话用户建模 | Honcho | HONCHO_API_KEY |
| 语义长期记忆 | Supermemory | SUPERMEMORY_API_KEY |
自托管 Firecrawl
默认情况下,Hermes 使用 Firecrawl 云 API 进行网页搜索和抓取。如果你更愿意在本地运行 Firecrawl,可以将 Hermes 指向自托管实例。完整设置说明参见 Firecrawl 的 SELF_HOST.md。
你将获得: 无需 API Key、无速率限制、无按页成本、完整数据主权。
你将失去: 云版本使用 Firecrawl 的专有 "Fire-engine" 进行高级反机器人绕过(Cloudflare、CAPTCHA、IP 轮换)。自托管使用基本 fetch + Playwright,因此某些受保护网站可能失败。搜索使用 DuckDuckGo 而非 Google。
设置:
-
克隆并启动 Firecrawl Docker 栈(5 个容器:API、Playwright、Redis、RabbitMQ、PostgreSQL — 需要约 4-8 GB RAM):
bashgit clone https://github.com/firecrawl/firecrawl cd firecrawl # 在 .env 中设置:USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002 docker compose up -d -
将 Hermes 指向你的实例(无需 API Key):
bashhermes config set FIRECRAWL_API_URL http://localhost:3002
如果你的自托管实例启用了认证,也可以同时设置 FIRECRAWL_API_KEY 和 FIRECRAWL_API_URL。
OpenRouter 提供商路由
使用 OpenRouter 时,你可以控制请求如何在提供商之间路由。在 ~/.hermes/config.yaml 中添加 provider_routing 部分:
provider_routing:
sort: "throughput" # "price"(默认)、"throughput" 或 "latency"
# only: ["anthropic"] # 仅使用这些提供商
# ignore: ["deepinfra"] # 跳过这些提供商
# order: ["anthropic", "google"] # 按此顺序尝试提供商
# require_parameters: true # 仅使用支持所有请求参数的提供商
# data_collection: "deny" # 排除可能存储/训练数据的提供商快捷方式: 在任何模型名称后追加 :nitro 以使用吞吐量排序(如 anthropic/claude-sonnet-4:nitro),或 :floor 使用价格排序。
OpenRouter Pareto Code Router
OpenRouter 在 openrouter/pareto-code 提供了一个实验性编程模型路由器,自动将请求路由到满足编程质量标准的最便宜模型(由 Artificial Analysis 排名)。选择此模型并在 ~/.hermes/config.yaml 中调整 min_coding_score 参数:
model:
provider: openrouter
model: openrouter/pareto-code
openrouter:
min_coding_score: 0.65 # 0.0-1.0;越高 = 更强(更贵)的编码器。默认 0.65。说明:
min_coding_score仅在model.model为openrouter/pareto-code时发送。在其他任何模型上该值无效。- 设置为空字符串(或删除该行)让 OpenRouter 选择最强的可用编码器 — 这是 plugins 块被省略时的文档行为。
- 选择在给定日期的给定分数上是确定性的,但实际选择的模型可能随着 Pareto 前沿的移动而变化(新模型、基准更新)。
- 完整路由器行为参见 OpenRouter 的 Pareto Router 文档。
- 要为特定辅助任务(压缩、视觉等)而非主 Agent 使用 Pareto Code 路由器,在该任务下设置
extra_body.plugins— 参见 辅助模型 → OpenRouter 路由与 Pareto Code 辅助任务。
回退提供商
配置一个备份提供商链,当主模型失败时(速率限制、服务器错误、认证失败),Hermes 按顺序尝试。规范格式是顶层的 fallback_providers: 列表:
fallback_providers:
- provider: openrouter
model: anthropic/claude-sonnet-4
- provider: anthropic
model: claude-sonnet-4
# base_url: http://localhost:8000/v1 # 可选,用于自定义端点
# api_mode: chat_completions # 可选覆盖旧版的单对 fallback_model: 字典仍被接受以保持向后兼容:
fallback_model:
provider: openrouter
model: anthropic/claude-sonnet-4当激活时,回退会在不丢失对话的情况下交换会话中的模型和提供商。链按条目逐一尝试;激活在每个会话中仅触发一次。
支持的提供商:openrouter、nous、openai-codex、copilot、copilot-acp、anthropic、gemini、google-gemini-cli、qwen-oauth、huggingface、zai、kimi-coding、kimi-coding-cn、minimax、minimax-cn、minimax-oauth、deepseek、nvidia、xai、xai-oauth、ollama-cloud、bedrock、ai-gateway、azure-foundry、opencode-zen、opencode-go、kilocode、xiaomi、arcee、gmi、stepfun、lmstudio、alibaba、alibaba-coding-plan、tencent-tokenhub、custom。
回退仅通过
config.yaml配置 — 或交互式通过hermes fallback。关于何时触发、链如何推进以及如何与辅助任务和委托交互的完整详情,参见回退提供商。