Instruct-Imagen

谷歌这个多模态图像生成模型Instruct-Imagen强啊，真正的将 LLM 和现在的 SD 生态进行了整合。

它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。
相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。

具体的研究内容：

引入多模态指令，任务表示普遍表示来自多种模态的指令，例如文本、边缘、掩码、样式、主题等。

建议执行检索增强训练和多模态指令调整，以适应预先训练的文本到图像模型以遵循多模态指令。

构建了Instruct-Imagen，这是一个处理异构图像生成任务的统一模型，超越了各自领域的多项最先进技术。

Instruct-Imagen 可以推广到看不见的复杂任务，无需任何临时设计。