谷歌Imagen 3开放API：每张图0.03美元，开发者终于能用上了

谷歌的Imagen 3终于通过Gemini API开放了。之前只有付费用户能用，现在开发者也能直接调API生成图像了。

Imagen 3能干什么

Imagen 3的强项是风格多样性。从超现实主义到印象派风景，从写实人像到动漫角色，它都能生成质量不错的图像。提示词遵循能力也比前代好，你描述什么，它基本能给你生成什么。

价格是每张图像0.03美元，可以控制宽高比、生成数量等参数。

怎么用

几行Python代码就能跑：

python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='你的API Key')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='一只穿着披风的贵宾犬肖像',
    config=types.GenerateImagesConfig(number_of_images=1)
)

for generated_image in response.generated_images:
    image = Image.open(BytesIO(generated_image.image.image_bytes))
    image.show()

调用的是imagen-3.0-generate-002这个模型，prompt里写你想要的图像描述就行。

一个值得注意的细节

所有由Imagen 3生成的图像都包含一个不可见的SynthID数字水印。这个水印不影响图像质量，但可以用来识别这张图是AI生成的。

这是谷歌为了应对AI图像滥用采取的措施。虽然水印不能完全阻止恶意使用，但至少提供了一种溯源手段。

跟其他图像生成模型比

Imagen 3在各项基准测试上的表现是目前最好的之一。不过说实话，现在图像生成领域的竞争很激烈，Midjourney、DALL-E 3、Stable Diffusion都在快速迭代。

Imagen 3的优势在于跟Gemini API的集成。如果你已经在用Gemini API做应用，加个图像生成功能只需要多调一个接口，不用再对接第三方服务。

适合什么场景

需要程序化生成图像的场景：电商产品图、营销素材、游戏资产、内容配图。每张0.03美元的成本对于批量生成来说还可以接受。

如果你只是偶尔生成几张图玩玩，直接用Gemini对话界面就够了，不需要调API。API的价值在于能集成到自动化流程里。

谷歌把Imagen 3接入Gemini API这步棋，本质上是让图像生成变成一个可编程的能力。对开发者来说，这意味着图像生成不再是独立的工具，而是可以跟其他AI能力组合使用的模块。

在 AI 技术快速迭代的今天，保持持续学习的能力比掌握任何特定的技术都更重要。理解底层原理可以帮助你在遇到新技术时更快地上手，可以在不同的技术方案之间做出更明智的选择。建议开发者建立自己的技术框架，而不是追逐每一个新的工具和框架。实践是最好的学习方式，在真实项目中应用新学到的技术，遇到问题并解决，这种经历比任何教程都更有价值。定期整理和复盘也是很好的习惯。将学到的知识归档整理，形成自己的知识库。当需要用到某个技术时，可以直接从自己的知识库中找到相关的参考，而不是从零开始搜索。