[論文レビュー] Corpus Conversion Service: A machine learning platform to ingest documents at scale [Poster abstract]
本稿では、人間がアノテートしたレイアウトを学習データとして使用するトレーニング可能なモデルをルールベースのヒューリスティクスの代わりに用いることで、スケールアップしてPDFドキュメントを構造化データに変換するクラウドベースの機械学習プラットフォーム、Corpus Conversion Service (CCS) を提示する。深層学習とランダムフォレストモデルを用いて人間がアノテートしたレイアウトで学習させた結果、表検出では97%以上の精度と再現率、タイトルや著者などの主要なドキュメント要素では99%以上のF1スコアを達成した。
Over the past few decades, the amount of scientific articles and technical literature has increased exponentially in size. Consequently, there is a great need for systems that can ingest these documents at scale and make their content discoverable. Unfortunately, both the format of these documents (e.g. the PDF format or bitmap images) as well as the presentation of the data (e.g. complex tables) make the extraction of qualitative and quantitive data extremely challenging. We present a platform to ingest documents at scale which is powered by Machine Learning techniques and allows the user to train custom models on document collections. We show precision/recall results greater than 97% with regard to conversion to structured formats, as well as scaling evidence for each of the microservices constituting the platform.
研究の動機と目的
- 長年の課題である、大規模な非構造的PDFドキュメントを構造化データに変換することに取り組む。
- 常に手動でのチューニングが必要なルールベースのシステムの制限を克服すること。
- 人間がアノテートした真値に基づいてトレーニングされた機械学習を用いて、自動的かつスケーラブルなドキュメントインジェストを可能にすること。
- ドキュメントレイアウト要素の可視的で色分けされたラベリングにより、アノテーション作業の負荷を低減すること。
- ハイブリッドな深層学習とアンサンブルモデルを用いて、レイアウトの意味的分類の精度を向上させること。
提案手法
- プラットフォームはマイクロサービスアーキテクチャを採用し、ドキュメントパイプライン(解析、モデル推論、アセンブリ、アノテーション、トレーニング)を処理する。
- 各PDFページは、境界ボックスとコンテンツを伴うテキストスニペット(セル)に解析され、MLモデルの入力として使用される。
- レイアウトの意味的分類(例:タイトル、表、本文)は、オブジェクト検出に用いる深層ニューラルネットワーク(Faster R-CNN、YOLOv2)と、テンプレート固有の分類に用いるランダムフォレストモデルによって予測される。
- 各ラベルに色を割り当てることで、可視化インターフェースを通じてアノテーションが収集され、人的なアノテーション時間の大幅な短縮が達成された。
- 幾何的およびスタイリスティック的特徴(位置、サイズ、フォントスタイル、周囲の要素との距離)が、カスタムランダムフォレストモデルの入力特徴として使用される。
- 新しいアノテーションを用いて、トレーニング済みのモデルを反復的に再トレーニングすることで、特定のドキュメントテンプレートにおける継続的な改善が可能になった。
実験結果
リサーチクエスチョン
- RQ1機械学習ベースのアプローチは、大規模なPDFドキュメント変換において、ルールベースのシステムを上回ることができるか?
- RQ2レイアウト意味的分類モデルのトレーニングに適した、人的なアノテーションを効率的かつスケーラブルに実施する方法は何か?
- RQ3深層学習モデルは、表のような複雑なレイアウト要素を、高い精度と再現率で検出できるか?
- RQ4テンプレート固有のモデルは、科学雑誌のような構造化ドキュメントの分類精度を向上させられるか?
- RQ5深層学習の予測結果と幾何的特徴を組み合わせることで、分類性能はどのように向上するか?
主な発見
- 物理的レビューBデータセットにおいて、テンプレート固有のモデルを用いた結果、タイトル検出で97.40%の精度と100%の再現率を達成した。
- 表検出においては、99.24%の精度と99.97%の再現率を達成し、複雑なレイアウト要素を高信頼性で同定できることを示した。
- 5,000ページのテストセットにおいて、Faster R-CNNおよびYOLOv2モデルの両方が、表検出において97%以上の精度と再現率を達成した。
- 色分けされた可視化インターフェースのおかげで、人的アノテーション速度が1分間に30ページまで向上し、作業負荷は少なくとも1桁以上低減された。
- 深層学習の予測結果を特徴量として用いるハイブリッドモデルは、単体のモデルよりも、主要なドキュメント要素の分類精度を向上させた。
- マイクロサービスアーキテクチャにより、線形的なスケーリングが実現された。仮想マシン数に比例して処理速度が向上し、ソリューションの所要時間は一定を維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。