ByteNoteByteNote

字节笔记本

2026年5月3日

谷歌Imagen 3开放API:每张图0.03美元,开发者终于能用上了

API中转
¥120

谷歌的Imagen 3终于通过Gemini API开放了。之前只有付费用户能用,现在开发者也能直接调API生成图像了。

Imagen 3能干什么

Imagen 3的强项是风格多样性。从超现实主义到印象派风景,从写实人像到动漫角色,它都能生成质量不错的图像。提示词遵循能力也比前代好,你描述什么,它基本能给你生成什么。

价格是每张图像0.03美元,可以控制宽高比、生成数量等参数。

怎么用

几行Python代码就能跑:

python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='你的API Key')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='一只穿着披风的贵宾犬肖像',
    config=types.GenerateImagesConfig(number_of_images=1)
)

for generated_image in response.generated_images:
    image = Image.open(BytesIO(generated_image.image.image_bytes))
    image.show()

调用的是imagen-3.0-generate-002这个模型,prompt里写你想要的图像描述就行。

一个值得注意的细节

所有由Imagen 3生成的图像都包含一个不可见的SynthID数字水印。这个水印不影响图像质量,但可以用来识别这张图是AI生成的。

这是谷歌为了应对AI图像滥用采取的措施。虽然水印不能完全阻止恶意使用,但至少提供了一种溯源手段。

跟其他图像生成模型比

Imagen 3在各项基准测试上的表现是目前最好的之一。不过说实话,现在图像生成领域的竞争很激烈,Midjourney、DALL-E 3、Stable Diffusion都在快速迭代。

Imagen 3的优势在于跟Gemini API的集成。如果你已经在用Gemini API做应用,加个图像生成功能只需要多调一个接口,不用再对接第三方服务。

适合什么场景

需要程序化生成图像的场景:电商产品图、营销素材、游戏资产、内容配图。每张0.03美元的成本对于批量生成来说还可以接受。

如果你只是偶尔生成几张图玩玩,直接用Gemini对话界面就够了,不需要调API。API的价值在于能集成到自动化流程里。

谷歌把Imagen 3接入Gemini API这步棋,本质上是让图像生成变成一个可编程的能力。对开发者来说,这意味着图像生成不再是独立的工具,而是可以跟其他AI能力组合使用的模块。

在 AI 技术快速迭代的今天,保持持续学习的能力比掌握任何特定的技术都更重要。理解底层原理可以帮助你在遇到新技术时更快地上手,可以在不同的技术方案之间做出更明智的选择。建议开发者建立自己的技术框架,而不是追逐每一个新的工具和框架。实践是最好的学习方式,在真实项目中应用新学到的技术,遇到问题并解决,这种经历比任何教程都更有价值。定期整理和复盘也是很好的习惯。将学到的知识归档整理,形成自己的知识库。当需要用到某个技术时,可以直接从自己的知识库中找到相关的参考,而不是从零开始搜索。

分享: