用于多模式文档理解的布局感知生成语言模型
用于多模式文档理解的布局感知生成语言模型
DocLLM: A layout-aware generative language model for multimodal document understanding
(用于多模式文档理解的布局感知生成语言模型)
论文摘要:
企业文档(例如表格、发票、收据、报告、合同和其他类似记录)通常在文本和空间模态的交汇处携带丰富的语义。复杂布局提供的视觉提示对于有效理解这些文档起着至关重要的作用。
在本文中,我们提出了 DocLLM,它是传统大型语言模型 (LLM) 的轻量级扩展,用于对视觉文档进行推理,同时考虑文本语义和空间布局。我们的模型与现有的多模态LLM不同,它避免了昂贵的图像编码器,并且只专注于边界框信息以合并空间布局结构。
具体来说,通过将经典 Transformer 中的注意力机制分解为一组解开的矩阵来捕获文本和空间模态之间的交叉对齐。此外,我们设计了一个学习填充文本片段的预训练目标。这种方法使我们能够解决视觉文档中经常遇到的不规则布局和异构内容。预训练模型使用大规模指令数据集进行微调,涵盖四个核心文档智能任务。
我们证明,我们的解决方案在所有任务的 16 个数据集中的 14 个上优于 SotA LLM,并且可以很好地推广到 5 个以前未见过的数据集中的 4 个。