Instruct-Imagen
Instruct-Imagen
谷歌这个多模态图像生成模型Instruct-Imagen强啊,真正的将 LLM 和现在的 SD 生态进行了整合。
它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。
相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。
具体的研究内容:
引入多模态指令,任务表示普遍表示来自多种模态的指令,例如文本、边缘、掩码、样式、主题等。
建议执行检索增强训练和多模态指令调整,以适应预先训练的文本到图像模型以遵循多模态指令。
构建了Instruct-Imagen,这是一个处理异构图像生成任务的统一模型,超越了各自领域的多项最先进技术。
Instruct-Imagen 可以推广到看不见的复杂任务,无需任何临时设计。