Skip to main content
QUICK REVIEW

[論文レビュー] Chemical-protein relation extraction with ensembles of SVM, CNN, and RNN models

Yifan Peng, Anthony Rios|arXiv (Cornell University)|Feb 5, 2018
Biomedical Text Mining and Ontologies参考文献 15被引用数 23
ひとこと要約

本論文は、化学物質-タンパク質関係抽出のためのアンサンブルモデルを提示している。SVM、CNN、RNNアーキテクチャを統合し、メジャリティ投票とスタッキングを用いて、BioCreative VI CHEMPROTチャレンジでF1スコア0.6410を達成した。他の提出物を上回り、バイオメディカル関係抽出におけるハイブリッドディープラーニングと従来の機械学習アプローチの有効性を示した。

ABSTRACT

Text mining the relations between chemicals and proteins is an increasingly important task. The CHEMPROT track at BioCreative VI aims to promote the development and evaluation of systems that can automatically detect the chemical-protein relations in running text (PubMed abstracts). This manuscript describes our submission, which is an ensemble of three systems, including a Support Vector Machine, a Convolutional Neural Network, and a Recurrent Neural Network. Their output is combined using a decision based on majority voting or stacking. Our CHEMPROT system obtained 0.7266 in precision and 0.5735 in recall for an f-score of 0.6410, demonstrating the effectiveness of machine learning-based approaches for automatic relation extraction from biomedical literature. Our submission achieved the highest performance in the task during the 2017 challenge.

研究の動機と目的

  • PubMedの要約から化学物質-タンパク質相互作用を自動抽出することを目的とする。
  • 構造化されていないバイオメディカルテキストにおける複雑な生物学的関係を同定する課題に対処することを目的とする。
  • 科学文献における化学物質-タンパク質相互作用の微細な特徴を処理できる耐障害性のある関係抽出システムの開発を目的とする。
  • 実世界のバイオメディカルNLPベンチマークにおけるハイブリッド機械学習モデルの性能を評価することを目的とする。
  • BioCreative VI CHEMPROTトラックで最先端の結果を達成することを目的とする。

提案手法

  • 本システムは、3つの異なるモデル(サポートベクターマシン(SVM)、畳み込みニューラルネットワーク(CNN)、再帰ニューラルネットワーク(RNN))のアンサンブルを採用している。
  • 各モデルは、化学物質とタンパク質の関係を分類するために、アノテート済みのPubMed要約で学習されている。
  • モデルの出力を2つの統合戦略であるメジャリティ投票とメタラーナーを用いたスタッキングにより統合している。
  • 特徴工学には、従属構文解析やワード埋め込みなど、テキストから得られる句構造的および意味的表現が含まれる。
  • アンサンブルは、各モデルの長所を活かしている—SVMは高次元のパターン認識に、CNNは局所的特徴抽出に、RNNはテキストの順序的モデリングにそれぞれ優れている。
  • 最終予測は、個々のモデル出力を集約することで生成され、耐性と一般化性能の向上が図られている。

実験結果

リサーチクエスチョン

  • RQ1多様な機械学習モデルのアンサンブルは、個々のモデルと比較して、化学物質-タンパク質関係抽出の性能を向上させることができるか?
  • RQ2従来の機械学習(SVM)とディープニューラルネットワーク(CNN、RNN)をハイブリッドフレームワークで統合した場合、バイオメディカル関係抽出においてどの程度有効か?
  • RQ3スタッキングとメジャリティ投票のどちらが、異種モデルからの予測統合においてより優れた性能を示すか?
  • RQ4このアンサンブルアプローチは、BioCreative VI CHEMPROTチャレンジにおいて、既存のシステムをどの程度上回るか?
  • RQ5各コンponentモデルがアンサンブルシステム全体の性能にどの程度寄与しているか?

主な発見

  • アンサンブルシステムは、BioCreative VI CHEMPROTテストセットでF1スコア0.6410を達成し、チャレンジの他の提出物をすべて上回った。
  • 精度は0.7266、再現率は0.5735であり、精度とカバレッジのバランスが良好であることが示された。
  • スタッキングとメジャリティ投票の両方とも、個々のモデルより性能が向上しており、スタッキングはやや優れた一般化性能を示した。
  • CNNモデルは、関係を示すフレーズ内の局所的句構造的パターンを捉えるのに顕著に寄与した。
  • RNNモデルは、より長いバイオメディカル文における長距離依存関係を効果的にモデリングした。
  • SVMコンponentは、特に希少な関係タイプの処理において安定したベースライン性能を提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。