hermes教程-使用 Hermes 语音模式

语音模式的适用场景

语音模式在以下情况下特别有用：

你想要免提的 CLI 工作流
你希望在 Telegram 或 Discord 中获得语音回复
你希望 Hermes 加入 Discord 语音频道进行实时对话
你希望快速捕捉想法、调试或在走动时进行来回交流，而不是打字

选择你的语音模式设置

Hermes 实际上提供三种不同的语音体验。

模式	最适合	平台
交互式麦克风循环	编码或研究时的个人免提使用	CLI
聊天中的语音回复	在正常消息旁附带语音回复	Telegram, Discord
实时语音频道机器人	语音频道中的群组或个人实时对话	Discord 语音频道

一个好的路径是：

先让文本模式正常工作
然后启用语音回复
最后，如果你想要完整体验，再转向 Discord 语音频道

步骤 1：确保普通 Hermes 先正常工作

在接触语音模式之前，请确认：

Hermes 能够启动
你的提供商已配置
代理能够正常回答文本提示

bash

hermes

问一些简单的问题：

你有哪些可用的工具？

如果这一步还不稳定，请先修复文本模式。

步骤 2：安装正确的额外依赖

CLI 麦克风 + 播放

bash

pip install "hermes-agent[voice]"

消息平台

bash

pip install "hermes-agent[messaging]"

高级 ElevenLabs TTS

bash

pip install "hermes-agent[tts-premium]"

本地 NeuTTS（可选）

bash

python -m pip install -U neutts[all]

全部安装

bash

pip install "hermes-agent[all]"

步骤 3：安装系统依赖

macOS

bash

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

bash

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

这些依赖的作用：

portaudio → CLI 语音模式的麦克风输入/播放
ffmpeg → TTS 和消息投递的音频转换
opus → Discord 语音编解码器支持
espeak-ng → NeuTTS 的音素化后端

步骤 4：选择 STT 和 TTS 提供商

Hermes 同时支持本地和云端语音栈。

最简单/最便宜的设置

使用本地 STT 和免费 Edge TTS：

STT 提供商：local
TTS 提供商：edge

这通常是最好的起点。

环境文件示例

添加到 ~/.hermes/.env：

bash

## 云端 STT 选项（本地不需要密钥）
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***
## 高级 TTS（可选）
ELEVENLABS_API_KEY=***

提供商推荐

语音转文本

local → 隐私和零成本的最佳默认选择
groq → 非常快速的云端转录
openai → 良好的付费备选

文本转语音

edge → 免费且对大多数用户足够好
neutts → 免费的本地/设备端 TTS
elevenlabs → 最佳质量
openai → 良好的中间选择
mistral → 多语言，原生 Opus

如果你使用 `hermes setup`

如果在设置向导中选择 NeuTTS，Hermes 会检查 neutts 是否已安装。如果缺失，向导会告知你需要 Python 包 neutts 和系统包 espeak-ng，并提供为你安装的选项，然后使用你的平台包管理器安装 espeak-ng，接着运行：

bash

python -m pip install -U neutts[all]

如果你跳过安装或安装失败，向导会回退到 Edge TTS。

步骤 5：推荐配置

yaml

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  beep_enabled: true
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

这对大多数人来说是一个良好的保守默认配置。

如果你想要本地 TTS，请将 tts 块切换为：

yaml

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

用例 1：CLI 语音模式

开启语音模式

启动 Hermes：

bash

hermes

在 CLI 中：

/voice on

录音流程

默认按键：

Ctrl+B

工作流程：

按下 Ctrl+B
开始说话
等待静音检测自动停止录音
Hermes 转录并响应
如果 TTS 开启，它会朗读回答
循环可以自动重新开始，用于连续使用

常用命令

text

/voice
/voice on
/voice off
/voice tts
/voice status

良好的 CLI 工作流

临时调试

说：

我不断遇到 Docker 权限错误。帮我调试一下。

然后免提继续：

"再读一遍最后的错误"
"用更简单的术语解释根本原因"
"现在给我确切的修复方法"

研究/头脑风暴

非常适合：

边走动边思考
口述半成型的想法
让 Hermes 实时整理你的思路

无障碍/低打字场景

如果打字不方便，语音模式是保持在完整 Hermes 循环中最快的方式之一。

调整 CLI 行为

静音阈值

如果 Hermes 启动/停止过于激进，调整：

yaml

voice:
  silence_threshold: 250

阈值越高，灵敏度越低。

静音持续时间

如果你在句子之间停顿较多，增加：

yaml

voice:
  silence_duration: 4.0

录音按键

如果 Ctrl+B 与你的终端或 tmux 习惯冲突：

yaml

voice:
  record_key: "ctrl+space"

用例 2：Telegram 或 Discord 中的语音回复

此模式比完整的语音频道更简单。

Hermes 仍然是一个普通的聊天机器人，但可以语音回复。

启动网关

bash

hermes gateway

开启语音回复

在 Telegram 或 Discord 中：

/voice on

或

/voice tts

模式

模式	含义
`off`	仅文本
`voice_only`	仅当用户发送语音时回复语音
`all`	每次回复都语音

何时使用哪种模式

如果你只希望针对语音来源的消息获得语音回复，使用 /voice on
如果你希望始终获得完整的语音助手体验，使用 /voice tts

良好的消息工作流

手机上的 Telegram 助手

在以下情况下使用：

你远离电脑
你想发送语音消息并快速获得语音回复
你希望 Hermes 像一个便携式研究或运维助手

带语音输出的 Discord 私信

当你希望进行私密交互而不触发服务器频道提及行为时非常有用。

用例 3：Discord 语音频道

这是最先进的模式。

Hermes 加入 Discord 语音频道，监听用户语音，进行转录，运行正常的代理管道，并将语音回复播回到频道中。

所需的 Discord 权限

除了普通的文本机器人设置外，请确保机器人拥有：

连接
说话
最好使用语音活动检测

同时在开发者门户中启用特权意图：

在线状态意图
服务器成员意图
消息内容意图

加入和离开

在机器人所在的 Discord 文本频道中：

text

/voice join
/voice leave
/voice status

加入后会发生什么

用户在语音频道中说话
Hermes 检测语音边界
转录内容发布到关联的文本频道
Hermes 以文本和音频形式回复
文本频道是执行 /voice join 命令的那个频道

Discord 语音频道使用最佳实践

保持 DISCORD_ALLOWED_USERS 严格限制
首先使用专用的机器人/测试频道
在尝试语音频道模式之前，先验证 STT 和 TTS 在普通文本聊天语音模式下正常工作

语音质量建议

最佳质量设置

STT：本地 large-v3 或 Groq whisper-large-v3
TTS：ElevenLabs

最佳速度/便利性设置

STT：本地 base 或 Groq
TTS：Edge

最佳零成本设置

STT：本地
TTS：Edge

常见故障模式

"未找到音频设备"

安装 portaudio。

"机器人加入了但听不到声音"

检查：

你的 Discord 用户 ID 是否在 DISCORD_ALLOWED_USERS 中
你是否没有静音
特权意图是否已启用
机器人是否拥有连接/说话权限

"它能转录但不说话"

检查：

TTS 提供商配置
ElevenLabs 或 OpenAI 的 API 密钥/配额
用于 Edge 转换路径的 ffmpeg 安装

"Whisper 输出乱码"

尝试：

更安静的环境
更高的 silence_threshold
不同的 STT 提供商/模型
更短、更清晰的语句

"它在私信中工作，但在服务器频道中不行"

这通常是提及策略问题。

默认情况下，除非另行配置，否则机器人在 Discord 服务器文本频道中需要 @提及。

建议的第一周设置

如果你想要最短的成功路径：

让文本 Hermes 正常工作
安装 hermes-agent[voice]
使用本地 STT + Edge TTS 的 CLI 语音模式
然后在 Telegram 或 Discord 中启用 /voice on
之后才尝试 Discord 语音频道模式

这种渐进式方法可以保持调试范围较小。

字节笔记本

hermes教程-使用 Hermes 语音模式

语音模式的适用场景

选择你的语音模式设置

步骤 1：确保普通 Hermes 先正常工作

步骤 2：安装正确的额外依赖

CLI 麦克风 + 播放

消息平台

高级 ElevenLabs TTS

本地 NeuTTS（可选）

全部安装

步骤 3：安装系统依赖

macOS

Ubuntu / Debian

步骤 4：选择 STT 和 TTS 提供商

最简单/最便宜的设置

环境文件示例

提供商推荐

语音转文本

文本转语音

如果你使用 hermes setup

步骤 5：推荐配置

用例 1：CLI 语音模式

开启语音模式

录音流程

常用命令

良好的 CLI 工作流

临时调试

研究/头脑风暴

无障碍/低打字场景

调整 CLI 行为

静音阈值

静音持续时间

录音按键

用例 2：Telegram 或 Discord 中的语音回复

启动网关

开启语音回复

模式

何时使用哪种模式

良好的消息工作流

手机上的 Telegram 助手

带语音输出的 Discord 私信

用例 3：Discord 语音频道

所需的 Discord 权限

加入和离开

加入后会发生什么

Discord 语音频道使用最佳实践

语音质量建议

最佳质量设置

最佳速度/便利性设置

最佳零成本设置

常见故障模式

"未找到音频设备"

"机器人加入了但听不到声音"

"它能转录但不说话"

"Whisper 输出乱码"

"它在私信中工作，但在服务器频道中不行"

建议的第一周设置

下一步阅读

如果你使用 `hermes setup`