ByteNoteByteNote

字节笔记本

2026年6月21日

hermes教程-图像生成

API中转
¥120

图像生成

Hermes Agent 通过 FAL.ai 从文本提示生成图像。开箱即支持十一个模型,每个模型在速度、质量和成本上各有权衡。当前使用的模型可通过 hermes tools 由用户配置,并持久化保存在 config.yaml 中。

支持的模型

模型速度优势价格
fal-ai/flux-2/klein/9b (默认)<1s快速,文本清晰$0.006/MP
fal-ai/flux-2-pro~6s工作室级照片真实感$0.03/MP
fal-ai/z-image/turbo~2s中英双语,6B 参数$0.005/MP
fal-ai/nano-banana-pro~8sGemini 3 Pro,推理深度,文本渲染$0.15/图像 (1K)
fal-ai/gpt-image-1.5~15s提示遵循度$0.034/图像
fal-ai/gpt-image-2~20s最先进文本渲染 + 中日韩,世界感知照片真实感$0.04–0.06/图像
fal-ai/ideogram/v3~5s最佳排版$0.03–0.09/图像
fal-ai/recraft/v4/pro/text-to-image~8s设计、品牌系统、生产就绪$0.25/图像
fal-ai/qwen-image~12s基于 LLM,复杂文本$0.02/MP
fal-ai/krea/v2/medium/text-to-image~15-25s插画、动漫、绘画、表现/艺术风格$0.030–0.035/图像
fal-ai/krea/v2/large/text-to-image~25-60s照片真实感,原始纹理外观(运动模糊、颗粒、胶片)$0.060–0.065/图像

价格为撰写时的 FAL 定价;请查看 fal.ai 获取最新数字。

设置

提示 — Nous 订阅用户

如果您拥有付费的 Nous Portal 订阅,则可以通过 工具网关 使用图像生成功能,无需 FAL API 密钥。您的模型选择在两个路径中保持一致。新安装可运行 hermes setup --portal 登录并一次性启用所有网关工具;现有安装可通过 hermes tools 选择 Nous Subscription 作为图像生成后端。

如果托管网关对特定模型返回 HTTP 4xx,说明该模型尚未在门户端代理——代理会告知您并提供修复步骤(设置 FAL_KEY 以直接访问,或选择其他模型)。

获取 FAL API 密钥

  1. fal.ai 注册
  2. 从控制台生成 API 密钥

配置并选择模型

运行工具命令:

bash
hermes tools

导航到 🎨 图像生成,选择您的后端(Nous Subscription 或 FAL.ai),然后选择器会以列对齐表格显示所有支持的模型——使用方向键导航,按 Enter 选择:

text
  模型                          速度     优势                    价格
  fal-ai/flux-2/klein/9b         <1s     快速,文本清晰          $0.006/MP   ← 当前使用中
  fal-ai/flux-2-pro              ~6s     工作室级照片真实感       $0.03/MP
  fal-ai/z-image/turbo           ~2s     中英双语,6B             $0.005/MP
  ...

您的选择会保存到 config.yaml

yaml
image_gen:
  model: fal-ai/flux-2/klein/9b
  use_gateway: false            # 如果使用 Nous Subscription 则为 true

GPT-Image 质量

fal-ai/gpt-image-1.5fal-ai/gpt-image-2 的请求质量固定为 medium(1024×1024 时约 $0.034–$0.06/图像)。我们不将 low / high 等级作为用户选项暴露,以便所有用户的 Nous Portal 计费保持可预测——各等级之间的成本差异为 3–22 倍。如果您想要更便宜的选项,请选择 Klein 9B 或 Z-Image Turbo;如果您想要更高质量,请使用 Nano Banana Pro 或 Recraft V4 Pro。

使用方式

面向代理的模式有意保持最小化——模型会直接使用您配置的内容:

生成一张宁静的樱花山景图像 创建一张睿智猫头鹰的方形肖像——使用排版模型 给我一张未来主义城市景观,横向构图

宽高比

从代理的角度看,每个模型都接受相同的三种宽高比。内部会自动填充每个模型的原生尺寸规格:

代理输入image_size (flux/z-image/qwen/recraft/ideogram)aspect_ratio (nano-banana-pro)image_size (gpt-image-1.5)image_size (gpt-image-2)
landscapelandscape_16_916:91536x1024landscape_4_3 (1024×768)
squaresquare_hd1:11024x1024square_hd (1024×1024)
portraitportrait_16_99:161024x1536portrait_4_3 (768×1024)

GPT Image 2 映射到 4:3 预设而非 16:9,因为其最小像素数为 655,360——landscape_16_9 预设(1024×576 = 589,824)会被拒绝。

此转换在 _build_fal_payload() 中完成——代理代码无需了解每个模型的模式差异。

自动放大

通过 FAL 的 Clarity Upscaler 进行放大,按模型控制:

模型放大?原因
fal-ai/flux-2-pro向后兼容(曾是选择器之前的默认模型)
其他所有模型快速模型会失去其亚秒级价值主张;高分辨率模型不需要

当执行放大时,使用以下设置:

设置
放大倍数
创造力0.35
相似度0.6
引导尺度4
推理步数18

如果放大失败(网络问题、速率限制),会自动返回原始图像。

内部工作原理

  1. 模型解析_resolve_fal_model()config.yaml 读取 image_gen.model,回退到 FAL_IMAGE_MODEL 环境变量,再回退到 fal-ai/flux-2/klein/9b
  2. 负载构建_build_fal_payload() 将您的 aspect_ratio 转换为模型的原生格式(预设枚举、宽高比枚举或 GPT 字面量),合并模型的默认参数,应用调用者覆盖,然后过滤到模型的 supports 白名单,从而不会发送不支持的键。
  3. 提交_submit_fal_request() 通过直接 FAL 凭据或托管的 Nous 网关路由。
  4. 放大 — 仅当模型的元数据包含 upscale: True 时执行。
  5. 交付 — 最终图像 URL 返回给代理,代理发出 MEDIA:<url> 标签,平台适配器将其转换为原生媒体。

调试

启用调试日志:

bash
export IMAGE_TOOLS_DEBUG=true

调试日志会写入 ./logs/image_tools_debug_<session_id>.json,包含每次调用的详细信息(模型、参数、时间、错误)。

平台交付

平台交付方式
CLI图像 URL 以 markdown ![](url) 形式打印——点击打开
Telegram照片消息,提示作为标题
Discord嵌入在消息中
SlackURL 由 Slack 展开
WhatsApp媒体消息
其他纯文本 URL

限制

  • 需要 FAL 凭据(直接 FAL_KEY 或 Nous Subscription)
  • 仅文本到图像——此工具不支持修复、图像到图像或编辑
  • 临时 URL——FAL 返回的托管 URL 会在数小时/天后过期;如有需要请本地保存
  • 每个模型的约束——某些模型不支持 seednum_inference_steps 等。supports 过滤器会静默丢弃不支持的参数;这是预期行为


分享: