hermes教程-图像生成 - 字节笔记本

图像生成

Hermes Agent 通过 FAL.ai 从文本提示生成图像。开箱即支持十一个模型，每个模型在速度、质量和成本上各有权衡。当前使用的模型可通过 hermes tools 由用户配置，并持久化保存在 config.yaml 中。

支持的模型

模型	速度	优势	价格
`fal-ai/flux-2/klein/9b` (默认)	`<1s`	快速，文本清晰	$0.006/MP
`fal-ai/flux-2-pro`	~6s	工作室级照片真实感	$0.03/MP
`fal-ai/z-image/turbo`	~2s	中英双语，6B 参数	$0.005/MP
`fal-ai/nano-banana-pro`	~8s	Gemini 3 Pro，推理深度，文本渲染	$0.15/图像 (1K)
`fal-ai/gpt-image-1.5`	~15s	提示遵循度	$0.034/图像
`fal-ai/gpt-image-2`	~20s	最先进文本渲染 + 中日韩，世界感知照片真实感	$0.04–0.06/图像
`fal-ai/ideogram/v3`	~5s	最佳排版	$0.03–0.09/图像
`fal-ai/recraft/v4/pro/text-to-image`	~8s	设计、品牌系统、生产就绪	$0.25/图像
`fal-ai/qwen-image`	~12s	基于 LLM，复杂文本	$0.02/MP
`fal-ai/krea/v2/medium/text-to-image`	~15-25s	插画、动漫、绘画、表现/艺术风格	$0.030–0.035/图像
`fal-ai/krea/v2/large/text-to-image`	~25-60s	照片真实感，原始纹理外观（运动模糊、颗粒、胶片）	$0.060–0.065/图像

价格为撰写时的 FAL 定价；请查看 fal.ai 获取最新数字。

设置

提示 — Nous 订阅用户

如果您拥有付费的 Nous Portal 订阅，则可以通过 工具网关 使用图像生成功能，无需 FAL API 密钥。您的模型选择在两个路径中保持一致。新安装可运行 hermes setup --portal 登录并一次性启用所有网关工具；现有安装可通过 hermes tools 选择 Nous Subscription 作为图像生成后端。

如果托管网关对特定模型返回 HTTP 4xx，说明该模型尚未在门户端代理——代理会告知您并提供修复步骤（设置 FAL_KEY 以直接访问，或选择其他模型）。

获取 FAL API 密钥

在 fal.ai 注册
从控制台生成 API 密钥

配置并选择模型

运行工具命令：

bash

hermes tools

导航到 🎨 图像生成，选择您的后端（Nous Subscription 或 FAL.ai），然后选择器会以列对齐表格显示所有支持的模型——使用方向键导航，按 Enter 选择：

text

  模型                          速度     优势                    价格
  fal-ai/flux-2/klein/9b         <1s     快速，文本清晰          $0.006/MP   ← 当前使用中
  fal-ai/flux-2-pro              ~6s     工作室级照片真实感       $0.03/MP
  fal-ai/z-image/turbo           ~2s     中英双语，6B             $0.005/MP
  ...

您的选择会保存到 config.yaml：

yaml

image_gen:
  model: fal-ai/flux-2/klein/9b
  use_gateway: false            # 如果使用 Nous Subscription 则为 true

GPT-Image 质量

fal-ai/gpt-image-1.5 和 fal-ai/gpt-image-2 的请求质量固定为 medium（1024×1024 时约 $0.034–$0.06/图像）。我们不将 low / high 等级作为用户选项暴露，以便所有用户的 Nous Portal 计费保持可预测——各等级之间的成本差异为 3–22 倍。如果您想要更便宜的选项，请选择 Klein 9B 或 Z-Image Turbo；如果您想要更高质量，请使用 Nano Banana Pro 或 Recraft V4 Pro。

使用方式

面向代理的模式有意保持最小化——模型会直接使用您配置的内容：

生成一张宁静的樱花山景图像 创建一张睿智猫头鹰的方形肖像——使用排版模型 给我一张未来主义城市景观，横向构图

宽高比

从代理的角度看，每个模型都接受相同的三种宽高比。内部会自动填充每个模型的原生尺寸规格：

代理输入	image_size (flux/z-image/qwen/recraft/ideogram)	aspect_ratio (nano-banana-pro)	image_size (gpt-image-1.5)	image_size (gpt-image-2)
`landscape`	`landscape_16_9`	`16:9`	`1536x1024`	`landscape_4_3` (1024×768)
`square`	`square_hd`	`1:1`	`1024x1024`	`square_hd` (1024×1024)
`portrait`	`portrait_16_9`	`9:16`	`1024x1536`	`portrait_4_3` (768×1024)

GPT Image 2 映射到 4:3 预设而非 16:9，因为其最小像素数为 655,360——landscape_16_9 预设（1024×576 = 589,824）会被拒绝。

此转换在 _build_fal_payload() 中完成——代理代码无需了解每个模型的模式差异。

自动放大

通过 FAL 的 Clarity Upscaler 进行放大，按模型控制：

模型	放大？	原因
`fal-ai/flux-2-pro`	✓	向后兼容（曾是选择器之前的默认模型）
其他所有模型	✗	快速模型会失去其亚秒级价值主张；高分辨率模型不需要

当执行放大时，使用以下设置：

设置	值
放大倍数	2×
创造力	0.35
相似度	0.6
引导尺度	4
推理步数	18

如果放大失败（网络问题、速率限制），会自动返回原始图像。

内部工作原理

模型解析 — _resolve_fal_model() 从 config.yaml 读取 image_gen.model，回退到 FAL_IMAGE_MODEL 环境变量，再回退到 fal-ai/flux-2/klein/9b。
负载构建 — _build_fal_payload() 将您的 aspect_ratio 转换为模型的原生格式（预设枚举、宽高比枚举或 GPT 字面量），合并模型的默认参数，应用调用者覆盖，然后过滤到模型的 supports 白名单，从而不会发送不支持的键。
提交 — _submit_fal_request() 通过直接 FAL 凭据或托管的 Nous 网关路由。
放大 — 仅当模型的元数据包含 upscale: True 时执行。
交付 — 最终图像 URL 返回给代理，代理发出 MEDIA:<url> 标签，平台适配器将其转换为原生媒体。

调试

启用调试日志：

bash

export IMAGE_TOOLS_DEBUG=true

调试日志会写入 ./logs/image_tools_debug_<session_id>.json，包含每次调用的详细信息（模型、参数、时间、错误）。

平台交付

平台	交付方式
CLI	图像 URL 以 markdown `![](url)` 形式打印——点击打开
Telegram	照片消息，提示作为标题
Discord	嵌入在消息中
Slack	URL 由 Slack 展开
WhatsApp	媒体消息
其他	纯文本 URL

限制

需要 FAL 凭据（直接 FAL_KEY 或 Nous Subscription）
仅文本到图像——此工具不支持修复、图像到图像或编辑
临时 URL——FAL 返回的托管 URL 会在数小时/天后过期；如有需要请本地保存
每个模型的约束——某些模型不支持 seed、num_inference_steps 等。supports 过滤器会静默丢弃不支持的参数；这是预期行为