Skip to main content
QUICK REVIEW

[論文レビュー] Large scale biomedical texts classification: a kNN and an ESA-based approaches

Khadim Dramé, Fleur Mougin|arXiv (Cornell University)|Jun 9, 2016
Text and Document Classification Technologies参考文献 42被引用数 26
ひとこと要約

本稿では、完全な文書情報が利用できない状況下でも、部分的な文書情報のみを用いて大規模なバイオメディカルテキストを分類するための軽量でスケーラブルな2つの手法を提案する。1つはラベルランクにランダムフォレストを組み合わせたkNNベースのアプローチであり、もう1つはESAベースのスタンドアロン分類器である。kNN手法はF-measure 0.55という競争力のある性能を達成した。一方、ESAは補完的特徴としての有効性を示し、低リソース環境におけるマルチラベルバイオメディカルテキスト分類において効果的であるが、単独での性能はやや控えめであった。

ABSTRACT

With the large and increasing volume of textual data, automated methods for identifying significant topics to classify textual documents have received a growing interest. While many efforts have been made in this direction, it still remains a real challenge. Moreover, the issue is even more complex as full texts are not always freely available. Then, using only partial information to annotate these documents is promising but remains a very ambitious issue. MethodsWe propose two classification methods: a k-nearest neighbours (kNN)-based approach and an explicit semantic analysis (ESA)-based approach. Although the kNN-based approach is widely used in text classification, it needs to be improved to perform well in this specific classification problem which deals with partial information. Compared to existing kNN-based methods, our method uses classical Machine Learning (ML) algorithms for ranking the labels. Additional features are also investigated in order to improve the classifiers' performance. In addition, the combination of several learning algorithms with various techniques for fixing the number of relevant topics is performed. On the other hand, ESA seems promising for this classification task as it yielded interesting results in related issues, such as semantic relatedness computation between texts and text classification. Unlike existing works, which use ESA for enriching the bag-of-words approach with additional knowledge-based features, our ESA-based method builds a standalone classifier. Furthermore, we investigate if the results of this method could be useful as a complementary feature of our kNN-based approach.ResultsExperimental evaluations performed on large standard annotated datasets, provided by the BioASQ organizers, show that the kNN-based method with the Random Forest learning algorithm achieves good performances compared with the current state-of-the-art methods, reaching a competitive f-measure of 0.55% while the ESA-based approach surprisingly yielded reserved results.ConclusionsWe have proposed simple classification methods suitable to annotate textual documents using only partial information. They are therefore adequate for large multi-label classification and particularly in the biomedical domain. Thus, our work contributes to the extraction of relevant information from unstructured documents in order to facilitate their automated processing. Consequently, it could be used for various purposes, including document indexing, information retrieval, etc.

研究の動機と目的

  • 完全なテキストが入手不可な状況下で、部分的な情報のみに依存して大規模バイオメディカルテキストを分類する課題に対処すること。
  • マルチラベルバイオメディカルテキストアノテーションに適したスケーラブルで軽量な分類手法を開発すること。
  • 低リソース環境下におけるアンサンブル学習を用いたkNNとESAを単独分類器として用いた際の有効性を評価すること。
  • ESAの出力結果がkNNベース分類器の性能向上に補完的特徴として有効であるかどうかを検討すること。
  • 非構造的バイオメディカル文書からの自動情報抽出を支援し、インデキシングおよびリトリーブに貢献すること。

提案手法

  • kNNベースの手法は、ベクトル空間モデルにおけるk近傍法に基づき、ラベルをランク付けするための古典的機械学習アルゴリズム(特にランダムフォレスト)を用いる。
  • 分類器の性能向上のため、関連するトピック数の最適値を特定する技術を含む追加特徴が組み込まれている。
  • ESAベースの手法は、文書とラベル間の意味的類似度を計算することで、スタンドアロンの分類器を構築する。
  • 従来のアプローチがbag-of-wordsモデルを強化するためにESAを用いるのに対し、本研究ではESAを主たる分類メカニズムとして扱う。
  • 実世界の妥当性を確保するため、BioASQチャレンジの標準的大規模アノテート済みデータセットを用いて手法を評価している。
  • kNNモデルは、複数の学習アルゴリズムとトピック選択戦略を統合することで、さらなる性能最適化が図られている。

実験結果

リサーチクエスチョン

  • RQ1kNNベースのアプローチにランダムフォレストによるラベルランクを組み合わせた手法が、部分的な文書情報のみを用いても大規模バイオメディカルテキスト分類で競争力のある性能を達成できるか?
  • RQ2マルチラベルバイオメディカルテキスト分類において、ESAベースの手法をスタンドアロン分類器として用いた場合の有効性はいかほどか?
  • RQ3ESAベースの手法の出力結果が、kNNベース分類器の性能向上に有用な補完的特徴として機能できるか?
  • RQ4追加の特徴量およびトピック選択技術が、kNNベース分類器の性能に与える影響は何か?
  • RQ5F-measureおよび大規模バイオメディカルデータセットにおけるスケーラビリティの観点から、これらの手法は最先端のアプローチと比較してどの程度の性能を示すか?

主な発見

  • ランダムフォレストを用いたkNNベースの手法は、F-measure 0.55という競争力のある結果を達成し、大規模バイオメディカルテキスト分類において優れた性能を示した。
  • ESAベースの手法はスタンドアロン分類器として用いた場合、やや控えめな結果にとどまったが、これは単独での限界を示唆する一方で、補完的特徴としての可能性を示している。
  • 複数の学習アルゴリズムとトピック選択戦略の統合により、kNNベースのアプローチ全体の性能が向上した。
  • 本手法は、部分的なテキストしか入手できない低リソース環境でも有効であり、実世界のバイオメディカル文書処理に適している。
  • ESAが主分類器として使われなくても、意味的特徴の供給源として貴重であることが示された。
  • 本研究は、文書インデキシングおよび情報検索などの応用を支援する、実用的でスケーラブルなバイオメディカルテキスト分類ソリューションを貢献した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。