字节笔记本
2026年6月21日
hermes教程-视频生成提供商插件
构建视频生成提供商插件
视频生成提供商插件注册一个后端,用于服务每次 video_generate 工具调用。内置提供商(xAI、FAL)以插件形式提供。要添加新插件或覆盖已有插件,只需将目录放入 plugins/video_gen/<name>/ 即可。
提示
视频生成插件几乎逐行镜像了图像生成提供商插件——如果你已经构建过图像生成后端,那么你已经熟悉了其结构。主要区别在于:一个
capabilities()方法用于声明模态/宽高比/时长,以及一个路由约定(传递image_url使用图像到视频,省略则使用文本到视频——提供商内部选择正确的端点)。
统一接口(一个工具,两种模态)
video_generate 工具通过一个参数暴露两种模态:
- 文本到视频——仅使用
prompt调用。提供商路由到其文本到视频端点。 - 图像到视频——使用
prompt+image_url调用。提供商路由到其图像到视频端点。
编辑和扩展功能有意不包含在内。大多数后端不支持它们,不一致性会迫使每个后端的说明文字进入代理的工具描述中。
发现机制
Hermes 在三个位置扫描视频生成后端:
- 内置——
<repo>/plugins/video_gen/<name>/(自动加载,kind: backend) - 用户——
~/.hermes/plugins/video_gen/<name>/(通过plugins.enabled选择加入) - Pip——声明了
hermes_agent.plugins入口点的包
每个插件的 register(ctx) 函数调用 ctx.register_video_gen_provider(...)。活动提供商由 config.yaml 中的 video_gen.provider 选择;hermes tools → 视频生成会引导用户进行选择。与 image_generate 不同,没有树内遗留后端——每个提供商都是一个插件。
目录结构
plugins/video_gen/my-backend/
├── __init__.py # VideoGenProvider 子类 + register()
└── plugin.yaml # 清单,kind: backendVideoGenProvider 抽象基类
继承 agent.video_gen_provider.VideoGenProvider。必需:name 属性和 generate() 方法。
## plugins/video_gen/my-backend/__init__.py
from typing import Any, Dict, List, Optional
import os
from agent.video_gen_provider import (
VideoGenProvider,
error_response,
success_response,
)
class MyVideoGenProvider(VideoGenProvider):
@property
def name(self) -> str:
return "my-backend"
@property
def display_name(self) -> str:
return "My Backend"
def is_available(self) -> bool:
return bool(os.environ.get("MY_API_KEY"))
def list_models(self) -> List[Dict[str, Any]]:
## 每个条目是一个模型族——用户一次性选择的名称。
## 你的提供商的 generate() 根据是否传递了 image_url 在族内路由。
return [
{
"id": "fast",
"display": "Fast",
"speed": "~30s",
"strengths": "最便宜层级",
"price": "$0.05/s",
"modalities": ["text", "image"], # 仅供参考
},
]
def default_model(self) -> Optional[str]:
return "fast"
def capabilities(self) -> Dict[str, Any]:
return {
"modalities": ["text", "image"],
"aspect_ratios": ["16:9", "9:16"],
"resolutions": ["720p", "1080p"],
"min_duration": 1,
"max_duration": 10,
"supports_audio": False,
"supports_negative_prompt": True,
"max_reference_images": 0,
}
def get_setup_schema(self) -> Dict[str, Any]:
return {
"name": "My Backend",
"badge": "paid",
"tag": "在 `hermes tools` 中显示的简短描述",
"env_vars": [
{
"key": "MY_API_KEY",
"prompt": "My Backend API 密钥",
"url": "https://mybackend.example.com/keys",
},
],
}
def generate(
self,
prompt: str,
*,
model: Optional[str] = None,
image_url: Optional[str] = None,
reference_image_urls: Optional[List[str]] = None,
duration: Optional[int] = None,
aspect_ratio: str = "16:9",
resolution: str = "720p",
negative_prompt: Optional[str] = None,
audio: Optional[bool] = None,
seed: Optional[int] = None,
**kwargs: Any, # 始终忽略未知参数以保持向前兼容
) -> Dict[str, Any]:
## 路由:image_url 的存在决定端点。
if image_url:
endpoint = "my-backend/image-to-video"
modality_used = "image"
else:
endpoint = "my-backend/text-to-video"
modality_used = "text"
## ... 调用你的 API ...
return success_response(
video="https://your-cdn/output.mp4",
model=model or "fast",
prompt=prompt,
modality=modality_used,
aspect_ratio=aspect_ratio,
duration=duration or 5,
provider=self.name,
)
def register(ctx) -> None:
ctx.register_video_gen_provider(MyVideoGenProvider())插件清单
## plugins/video_gen/my-backend/plugin.yaml
name: my-backend
version: 1.0.0
description: "我的视频生成后端"
author: Your Name
kind: backend
requires_env:
- MY_API_KEYvideo_generate 模式
该工具为所有后端暴露一个统一的模式。提供商忽略它们不支持的参数。
| 参数 | 作用 |
|---|---|
prompt | 文本指令(必需) |
image_url | 设置时 → 图像到视频;省略时 → 文本到视频 |
reference_image_urls | 风格/角色参考(取决于提供商) |
duration | 秒数——提供商进行限制 |
aspect_ratio | "16:9"、"9:16"、"1:1" 等——提供商进行限制 |
resolution | "480p" / "540p" / "720p" / "1080p"——提供商进行限制 |
negative_prompt | 要避免的内容(仅 Pixverse/Kling) |
audio | 原生音频(Veo3 / Pixverse 定价层级) |
seed | 可复现性 |
model | 覆盖活动模型/族 |
提供商的 capabilities() 方法会声明哪些参数被支持。代理会在工具描述中看到活动后端的能力,当用户通过 hermes tools 更改后端时,描述会动态重建。
模型族与端点路由(FAL 模式)
当你的后端每个“模型”有多个端点时——例如 FAL,每个族(Veo 3.1、Pixverse v6、Kling O3)都有 /text-to-video 和 /image-to-video URL——将每个族表示为一个目录条目。你的 generate() 根据是否传递了 image_url 选择正确的端点:
FAMILIES = {
"veo3.1": {
"text_endpoint": "fal-ai/veo3.1",
"image_endpoint": "fal-ai/veo3.1/image-to-video",
## ... 族特定的能力标志 ...
},
}
def generate(self, prompt, *, image_url=None, model=None, **kwargs):
family_id, family = _resolve_family(model)
endpoint = family["image_endpoint"] if image_url else family["text_endpoint"]
## ... 根据族声明的能力标志构建负载,调用端点 ...用户在 hermes tools 中一次性选择 veo3.1。代理从不考虑端点——它只是传递(或不传递)image_url。
选择优先级
对于实例级别的模型旋钮(参见 plugins/video_gen/fal/__init__.py):
- 工具调用中的
model=关键字 <PROVIDER>_VIDEO_MODEL环境变量config.yaml中的video_gen.<provider>.modelconfig.yaml中的video_gen.model(当它是你的 ID 之一时)- 提供商的
default_model()
响应格式
success_response() 和 error_response() 生成每个后端返回的字典格式。请使用它们——不要手动构建字典。
成功键:success、video(URL 或绝对路径)、model、prompt、modality("text" 或 "image")、aspect_ratio、duration、provider,以及 extra。
错误键:success、video(None)、error、error_type、model、prompt、aspect_ratio、provider。
保存工件的位置
如果你的后端返回 base64,使用 save_b64_video() 写入 $HERMES_HOME/cache/videos/。对于后续 HTTP 获取的原始字节,使用 save_bytes_video()。否则直接返回上游 URL——网关在交付时会解析远程 URL。
测试
在 tests/plugins/video_gen/test_<name>_plugin.py 下放置一个冒烟测试。xAI 和 FAL 的测试展示了模式——注册、验证目录、测试带和不带 image_url 的路由、在缺少认证时断言清晰的错误响应。