Skip to main content
QUICK REVIEW

[論文レビュー] OpenChemIE: An Information Extraction Toolkit For Chemistry Literature

Vincent Fan, Yujie Qian|arXiv (Cornell University)|Apr 1, 2024
Semantic Web and Ontologies被引用数 5
ひとこと要約

OpenChemIE はオープンソースのマルチモーダル情報抽出ツールキットで、テキスト、表、図をつなぎ合わせて文献から詳細な化学反応を抽出します。モジュールレベルの性能が優れており、手選定した基質範囲データセットで 69.5% F1、Reaxys に対して 64.3% の精度を達成します。

ABSTRACT

Information extraction from chemistry literature is vital for constructing up-to-date reaction databases for data-driven chemistry. Complete extraction requires combining information across text, tables, and figures, whereas prior work has mainly investigated extracting reactions from single modalities. In this paper, we present OpenChemIE to address this complex challenge and enable the extraction of reaction data at the document level. OpenChemIE approaches the problem in two steps: extracting relevant information from individual modalities and then integrating the results to obtain a final list of reactions. For the first step, we employ specialized neural models that each address a specific task for chemistry information extraction, such as parsing molecules or reactions from text or figures. We then integrate the information from these modules using chemistry-informed algorithms, allowing for the extraction of fine-grained reaction data from reaction condition and substrate scope investigations. Our machine learning models attain state-of-the-art performance when evaluated individually, and we meticulously annotate a challenging dataset of reaction schemes with R-groups to evaluate our pipeline as a whole, achieving an F1 score of 69.5%. Additionally, the reaction extraction results of \ours attain an accuracy score of 64.3% when directly compared against the Reaxys chemical database. We provide OpenChemIE freely to the public as an open-source package, as well as through a web interface.

研究の動機と目的

  • データ駆動型化学のための最新の反応データのキュレーションを動機づけ、手動抽出への依存を減らす。
  • マルチモーダル情報を組み合わせて完全な反応を回収するドキュメントレベル抽出システムを開発する。
  • 図、テキスト、表の解析のための化学を意識したモジュールを構築し、コア参照、アライメント、R-グループ解決を通じて統合する。
  • オープンソースのツールキットと公開ウェブインターフェースを提供し、より広範な採用と評価を促進する。

提案手法

  • 抽出をモダリティ別コンポーネントに分解する:図分析(分子検出、コア参照、ダイアグラム解析、分子認識)、テキスト分析(固有表現抽出、反応抽出)、マルチモーダル統合(R-グループ解決、反応条件のアライメント)。
  • 出力を統一パイプラインで表現し、反応の最終リストを得る(反応物、生成物、条件を含む;表からの条件を図とアライメントし、基質範囲情報を用いてR-グループを置換)。
  • MolDetect、MolCoref、RxnScribe、MolScribe、ChemNER、ChemRxnExtractor を専門のニューラルモジュールとして用い、化学情報を用いた条件のアライメントとR-グループ解決のアルゴリズムで統合する。
  • 5誌に跨る78基質範囲図の1007反応のデータセットを注釈付けしてエンドツーエンドのパイプラインを評価し、外部検証のために Reaxys と比較する。
Figure 1: Example of a multimodal reaction description drawn from Zhao et al. 10 . The reaction template is displayed in a figure, but information regarding R-groups is only contained in the highlighted sections of the table. Moreover, detailed reaction conditions are described in the table and acco
Figure 1: Example of a multimodal reaction description drawn from Zhao et al. 10 . The reaction template is displayed in a figure, but information regarding R-groups is only contained in the highlighted sections of the table. Moreover, detailed reaction conditions are described in the table and acco

実験結果

リサーチクエスチョン

  • RQ1図表とテキストをまたいだマルチモーダル統合は、モダリティごとの抽出だけよりもより完全な反応データを得られるか。
  • RQ2基質範囲図から反応構造を回復する際、化学知識を組み込んだアライメントとR-グループ解決の手法はどれくらい有効か。
  • RQ3OpenChemIE のエンドツーエンド性能は手作業で注釈付けしたデータセットと外部データベース(e.g., Reaxys)でどうなるか。

主な発見

  • OpenChemIE は注釈付き基質範囲データセットでエンドツーエンドの F1 スコア 69.5% を達成。
  • OpenChemIE は Reaxys と比較して抽出反応の精度が 64.3% を達成。
  • 注釈付きデータセットは 78 基質範囲図から 1007 反応、5誌にまたがるパイプラインのカバレッジを示している。
  • 個別モジュールは強力なベンチマークを示す:MolCoref の F1 は約 90.1%、RxnScribe の F1 は約 91.0%、MolDetect の AP が 86.0、MolScribe の精度が 71.9%、ChemNER の F1 は約 87.6–88.1%、ChemRxnExtractor の F1 は約 78.7%。
  • エンドツーエンドのエラーは主に分子認識と OCR に起因する。R-グループ解決は誤差に対して控えめに寄与する。
Figure 2: OpenChemIE addresses the problem of extracting a list of reactions, containing chemical structures for reactants and products, as well as reaction conditions from a PDF document segmented into figures, text, and tables.
Figure 2: OpenChemIE addresses the problem of extracting a list of reactions, containing chemical structures for reactants and products, as well as reaction conditions from a PDF document segmented into figures, text, and tables.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。