[论文解读] Sequence-aware multimodal page classification of Brazilian legal documents
本文提出了一种序列感知的多模态方法,通过可学习融合模块融合视觉和文本特征,对巴西高等法院诉讼案件的页面进行分类。该方法通过联合建模双向LSTM和CRF的序列依赖关系,实现了最先进的性能,在包含6,510起诉讼案件、339,478个标注页面的新数据集上,优于单模态和非序列基线模型。
The Brazilian Supreme Court receives tens of thousands of cases each semester. Court employees spend thousands of hours to execute the initial analysis and classification of those cases -- which takes effort away from posterior, more complex stages of the case management workflow. In this paper, we explore multimodal classification of documents from Brazil's Supreme Court. We train and evaluate our methods on a novel multimodal dataset of 6,510 lawsuits (339,478 pages) with manual annotation assigning each page to one of six classes. Each lawsuit is an ordered sequence of pages, which are stored both as an image and as a corresponding text extracted through optical character recognition. We first train two unimodal classifiers: a ResNet pre-trained on ImageNet is fine-tuned on the images, and a convolutional network with filters of multiple kernel sizes is trained from scratch on document texts. We use them as extractors of visual and textual features, which are then combined through our proposed Fusion Module. Our Fusion Module can handle missing textual or visual input by using learned embeddings for missing data. Moreover, we experiment with bi-directional Long Short-Term Memory (biLSTM) networks and linear-chain conditional random fields to model the sequential nature of the pages. The multimodal approaches outperform both textual and visual classifiers, especially when leveraging the sequential nature of the pages.
研究动机与目标
- 解决分类巴西高等法院诉讼案件页面所需的高人力成本,该过程每学期消耗数千小时。
- 开发一种多模态框架,结合视觉(图像)和文本(OCR)特征,以提升法律领域中的文档分类性能。
- 利用多页诉讼案件的序列结构,提升分类准确率,超越孤立页面分析。
- 创建并发布一个包含6,510起巴西诉讼案件、339,478个标注页面的新型大规模多模态数据集,包含图像和OCR提取的文本。
- 评估融合策略和序列建模技术的影响,以确定其在葡萄牙语法律文档中的分类性能表现。
提出的方法
- 在ImageNet上微调的ResNet-50模型,用于从文档图像中提取视觉特征。
- 从零开始训练一个1D卷积神经网络(CNN),使用多种卷积核大小,从OCR提取的文本中学习文本特征。
- 提出一种融合模块,通过可学习嵌入表示缺失模态的输入,替代零向量,实现视觉和文本嵌入的融合。
- 应用双向LSTM网络,建模诉讼案件中页面的顺序关系,结合与不结合CRF后处理以实现标签一致性。
- 实验比较早期融合(在LSTM之前拼接图像和文本嵌入)与晚期融合(在LSTM之后融合)的性能。
- 使用CRF层强制序列中相邻页面的标签一致性,提升预测的一致性。
实验结果
研究问题
- RQ1与单模态模型相比,视觉和文本特征的多模态融合是否能提升巴西法律文档的页面分类准确率?
- RQ2建模诉讼案件中页面的序列特性是否能带来显著的性能提升?
- RQ3在多模态设置中,融合策略的选择(早期融合 vs. 晚期融合)如何影响分类性能?
- RQ4与零向量相比,使用可学习嵌入表示缺失的视觉或文本数据的有效性如何?
- RQ5联合学习模态融合与序列建模是否优于独立融合特征后的序列建模?
主要发现
- 所提出的融合模块采用可学习嵌入表示缺失模态输入,在隐藏单元数为512和128的模型中,平均F1分数分别提升了6.47和2.75个百分点。
- 融合模型优于单模态分类器(文本和图像),在测试集上实现了最高的平均F1分数80.47%。
- 使用融合图像和文本嵌入的双向LSTM(BiLSTM-F)进行序列建模取得了最佳性能,平均F1为81.25%,加权F1为93.10%。
- CRF层使BiLSTM模型的平均F1提升了1.29个百分点,但对BiLSTM-F模型无帮助,表明融合与序列建模之间存在交互效应。
- 首页面的分类性能显著高于内页,在融合设置下,平均F1提升了9.47个百分点,表明首页面更具信息量。
- 该模型在VICTOR数据集的小版本上实现了最先进结果,在法律文档分类领域超越了先前工作。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。