QUICK REVIEW

[论文解读] Modular Multimodal Architecture for Document Classification

Tyler Dauphinee, Nikunj Patel|arXiv (Cornell University)|Dec 9, 2019

Advanced Computational Techniques and Applications被引用 26

一句话总结

本文提出了一种用于文档图像分类的模块化多模态架构，通过融合基于VGG16主干网络的视觉特征与基于词袋（BoW）模型的文本特征，在RVL-CDIP基准上实现了93.03%的测试准确率——超越了先前的最先进水平。该方法采用元分类器进行后期融合，以组合预测结果，支持组件的模块化替换，并可通过集成提升性能。

ABSTRACT

Page classification is a crucial component to any document analysis system, allowing for complex branching control flows for different components of a given document. Utilizing both the visual and textual content of a page, the proposed method exceeds the current state-of-the-art performance on the RVL-CDIP benchmark at 93.03% test accuracy.

研究动机与目标

通过在统一但模块化的框架中结合视觉与文本模态，提升文档页面分类的准确率。
解决单模态模型（仅图像或仅文本）在处理噪声多、质量低的扫描文档时的局限性。
开发一种灵活、可组合的架构，支持图像与文本组件的独立训练与替换。
通过后期融合策略，在RVL-CDIP基准上超越当前最先进性能。

提出的方法

使用Tesseract OCR从文档图像中提取文本，仅进行最小化预处理（将图像尺寸调整至最大3300像素边长）。
采用后期融合架构：图像与文本分类器分别生成类别得分，将其拼接后输入元分类器以进行最终预测。
使用VGG16（ImageNet预训练）和AlexNet（随机初始化）训练图像分类器，使用不同词表大小（1K至300K）的词袋（BoW）模型训练文本分类器。
针对不同模型类型，调整学习率调度的边界值，以优化训练稳定性和收敛性。
使用从ℝ²ᶜ到ℝᶜ的元分类器映射，融合图像与文本模型的预测结果，实现模块化集成。
同时进行单个模型的训练与所有组件模型的集成训练，以评估性能增益。

实验结果

研究问题

RQ1通过后期融合结合视觉与文本特征，是否能提升RVL-CDIP上文档图像分类的准确率，超越单模态基线？
RQ2该模块化架构是否允许在不重新训练整个系统的情况下，独立训练和替换图像与文本组件？
RQ3在存在OCR错误的情况下，词袋文本模型的性能与基于深度学习的文本编码器相比如何？
RQ4集成多个组件模型对最终分类准确率有何影响？
RQ5数据质量问题（如重复图像）在多大程度上影响RVL-CDIP基准结果的可靠性？

主要发现

所提出的多模态模型在RVL-CDIP上实现了93.03%的测试准确率，超越了Das等人（2018）报告的先前最先进水平92.21%。
性能最佳的配置为结合VGG16图像模型与使用20万个唯一词汇的BoW模型，达到93.03%的测试准确率。
即使使用低词表大小的BoW模型（1K词汇），其与图像模型结合后的性能仍优于最佳单模态图像模型（例如，AlexNet + BoW-10K优于单一VGG16）。
集成全部10个组件模型可达到93.07%的测试准确率，证明了该模块化方法的可扩展性。
本研究在RVL-CDIP的训练集与测试集中识别出426张重复图像，主要源于数据收集错误，可能影响基准结果的可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。