AnyText(AI生成或者编辑图片中的文字)

阿里发布的AnyText了解一下！可以用AI生成或者编辑图片中的文字，且与图片风格保持一致。支持中文（毕竟自己人的研究）

AnyText: Multilingual Visual Text Generation And Editing（多语言视觉文本生成和编辑）

项目：github.com/tyxsspa/AnyText
论文：arxiv.org/abs/2311.03054
演示：modelscope.cn/studios/damo/studio_anytext

论文摘要：

基于扩散模型的文本到图像最近取得了令人瞩目的成就。尽管当前的图像合成技术非常先进，能够生成高保真度的图像，但当聚焦于生成图像中的文本区域时，仍然可能会泄露出真相。

为了解决这个问题，我们引入了 AnyText，一种基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确且连贯的文本。

AnyText 包含一个具有两个主要元素的扩散管道：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成用于文本生成或编辑的潜在特征。后者采用 OCR 模型将笔划数据编码为嵌入，与标记生成器中的图像标题嵌入混合，生成与背景无缝集成的文本。我们采用文本控制扩散损失和文本感知损失进行训练，以进一步提高书写准确性。AnyText 可以用多种语言编写字符，

据我们所知，这是第一个解决多语言视觉文本生成问题的工作。值得一提的是，AnyText 可以插入社区现有的扩散模型中，以准确地渲染或编辑文本。

经过广泛的评估实验，我们的方法明显优于所有其他方法。此外，我们还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M，其中包含 300 万个带有多种语言 OCR 注释的图像文本对。基于AnyWord-3M数据集，我们提出了AnyText-benchmark来评估视觉文本生成的准确性和质量。