当QR Code 透过ControlNet 融入 Stable Diffusion AI图生图模型

6 min read

ControlNet 训练的数据结构十分简单,仅为一张输入图(conditioning image)、一张输出图(image)和一段标注(caption)。官方给出了非常多预训练模型,包括 1.0 版本中的 Depth、HED、OpenPose 和 1.1 中非常有创意的 Shuffle、Tile 和 Instruct Pix2Pix 等。

ControlNet 的训练对数据量和算力均有较高要求,论文中记录的训练数据量从 8 万到 300 万不等,训练时间可达 600 个 A100 GPU 小时。好在作者提供了基础的训练脚本,HuggingFace 也做了 Diffusers 实现。
引用:
在此前的 JAX Sprint 中,我们有幸使用 Google TPU v4,非常快地完成了 300 万张图的训练。可惜活动结束,我们回到了实验室的 A6000 / 4090,训练了一个 10 万张图的版本,且学习率非常大,只为尽早出现“突变拟合”(Sudden Convergence)。

说人话:
炼丹很吃N卡,然后你看到的都是效果图(已抽卡)。目前没有放出练好的模型哦,所以你要么自己做,要么让人帮你抽卡。知道AI绘图已经到这个过程就可以。作者在对应的网站贴出了训练方法和流程。总结就是入门门槛很高。不过专研这玩意做毕设,预计比隔壁实习生强不知道多少,你说对不对

最近有一个比较新鲜的进展是,将 QR Code 透过 ControlNet 融入 Stable Diffusion AI图生图模型。这个模型可以让你通过扫描 QR Code 来生成一张与QR Code 相关的图像,非常有趣。

不过,要理解这个过程需要一些前置知识。首先,ControlNet 是一个用于图像生成的模型,可以从一张输入图像和一段标注中生成一张输出图像。而 Stable Diffusion 是一种比较新的生成模型,也可以用于图像生成。

将 QR Code 透过 ControlNet 融入 Stable Diffusion AI图生图模型,实际上就是在 Stable Diffusion 的生成过程中加入了 QR Code 作为输入,然后使用 ControlNet 生成与 QR Code 相关的图像。这个过程需要一定的训练和调整,但是可以得到非常有趣的生成结果。

总之,这个过程需要一定的专业知识和技能,但是结果非常有趣,可以让我们看到 AI 在图像生成方面的潜力和创造力。