AnyText(AI生成或者编辑图片中的文字)
AnyText(AI生成或者编辑图片中的文字)
阿里发布的AnyText了解一下!可以用AI生成或者编辑图片中的文字,且与图片风格保持一致。支持中文(毕竟自己人的研究)
AnyText: Multilingual Visual Text Generation And Editing(多语言视觉文本生成和编辑)
项目:github.com/tyxsspa/AnyText
论文:arxiv.org/abs/2311.03054
演示:modelscope.cn/studios/damo/studio_anytext
论文摘要:
基于扩散模型的文本到图像最近取得了令人瞩目的成就。尽管当前的图像合成技术非常先进,能够生成高保真度的图像,但当聚焦于生成图像中的文本区域时,仍然可能会泄露出真相。
为了解决这个问题,我们引入了 AnyText,一种基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确且连贯的文本。
AnyText 包含一个具有两个主要元素的扩散管道:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成用于文本生成或编辑的潜在特征。后者采用 OCR 模型将笔划数据编码为嵌入,与标记生成器中的图像标题嵌入混合,生成与背景无缝集成的文本。我们采用文本控制扩散损失和文本感知损失进行训练,以进一步提高书写准确性。AnyText 可以用多种语言编写字符,
据我们所知,这是第一个解决多语言视觉文本生成问题的工作。值得一提的是,AnyText 可以插入社区现有的扩散模型中,以准确地渲染或编辑文本。
经过广泛的评估实验,我们的方法明显优于所有其他方法。此外,我们还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M,其中包含 300 万个带有多种语言 OCR 注释的图像文本对。基于AnyWord-3M数据集,我们提出了AnyText-benchmark来评估视觉文本生成的准确性和质量。