当QR Code 透过ControlNet 融入 Stable Diffusion AI图生图模型

ControlNet 训练的数据结构十分简单，仅为一张输入图（conditioning image）、一张输出图（image）和一段标注（caption）。官方给出了非常多预训练模型，包括 1.0 版本中的 Depth、HED、OpenPose 和 1.1 中非常有创意的 Shuffle、Tile 和 Instruct Pix2Pix 等。

ControlNet 的训练对数据量和算力均有较高要求，论文中记录的训练数据量从 8 万到 300 万不等，训练时间可达 600 个 A100 GPU 小时。好在作者提供了基础的训练脚本，HuggingFace 也做了 Diffusers 实现。
引用：
在此前的 JAX Sprint 中，我们有幸使用 Google TPU v4，非常快地完成了 300 万张图的训练。可惜活动结束，我们回到了实验室的 A6000 / 4090，训练了一个 10 万张图的版本，且学习率非常大，只为尽早出现“突变拟合”（Sudden Convergence）。

说人话：
炼丹很吃N卡，然后你看到的都是效果图（已抽卡）。目前没有放出练好的模型哦，所以你要么自己做，要么让人帮你抽卡。知道AI绘图已经到这个过程就可以。作者在对应的网站贴出了训练方法和流程。总结就是入门门槛很高。不过专研这玩意做毕设，预计比隔壁实习生强不知道多少，你说对不对

。

最近有一个比较新鲜的进展是，将 QR Code 透过 ControlNet 融入 Stable Diffusion AI图生图模型。这个模型可以让你通过扫描 QR Code 来生成一张与QR Code 相关的图像，非常有趣。

不过，要理解这个过程需要一些前置知识。首先，ControlNet 是一个用于图像生成的模型，可以从一张输入图像和一段标注中生成一张输出图像。而 Stable Diffusion 是一种比较新的生成模型，也可以用于图像生成。

将 QR Code 透过 ControlNet 融入 Stable Diffusion AI图生图模型，实际上就是在 Stable Diffusion 的生成过程中加入了 QR Code 作为输入，然后使用 ControlNet 生成与 QR Code 相关的图像。这个过程需要一定的训练和调整，但是可以得到非常有趣的生成结果。

总之，这个过程需要一定的专业知识和技能，但是结果非常有趣，可以让我们看到 AI 在图像生成方面的潜力和创造力。