QUICK REVIEW

[論文レビュー] Corpus-Driven Knowledge Acquisition for Discourse Analysis

Stephen Soderland, Wendy G. Lehnert|ArXiv.org|Jun 7, 1994

Natural Language Processing Techniques参考文献 10被引用数 26

ひとこと要約

本稿では、代表的テキストコーパスからディス course レベルの知識を自動で習得する機械学習システム Wrap-Up を提示する。このシステムは、手作業で作成された回答キーに基づいて訓練された意思決定木を用い、情報抽出を支援する。手作業によるヒューリスティクスの代わりにコーパス駆動型モデルを採用することで、開発期間を数か月から数日へ短縮し、MUC-4 マイクロエレクトロニクステストセットにおいて最高で F-スコア 37.5% の競争力ある性能を達成した。

ABSTRACT

The availability of large on-line text corpora provides a natural and promising bridge between the worlds of natural language processing (NLP) and machine learning (ML). In recent years, the NLP community has been aggressively investigating statistical techniques to drive part-of-speech taggers, but application-specific text corpora can be used to drive knowledge acquisition at much higher levels as well. In this paper we will show how ML techniques can be used to support knowledge acquisition for information extraction systems. It is often very difficult to specify an explicit domain model for many information extraction applications, and it is always labor intensive to implement hand-coded heuristics for each new domain. We have discovered that it is nevertheless possible to use ML algorithms in order to capture knowledge that is only implicitly present in a representative text corpus. Our work addresses issues traditionally associated with discourse analysis and intersentential inference generation, and demonstrates the utility of ML algorithms at this higher level of language analysis. The benefits of our work address the portability and scalability of information extraction (IE) technologies. When hand-coded heuristics are used to manage discourse analysis in an information extraction system, months of programming effort are easily needed to port a successful IE system to a new domain. We will show how ML algorithms can reduce this

研究の動機と目的

情報抽出システムにおける手作業でコーディングされたディス course モジュールの高コストと低移植性を解決すること。
機械学習が代表的テキストコーパスから暗黙のドメイン知識を抽出し、ディス course レベルの処理に応用できることを示すこと。
人的に手間のかかる、アプリケーション固有のヒューリスティクスを、スケーラブルでドメインを越えて一般化可能なコーパス駆動型モデルに置き換えること。
学習データからディス course 関係を学習することで、情報抽出におけるリCALLとPRECISIONを向上させること。
自然言語処理や機械学習の専門知識を持たないドメインエキスパートが、システムを訓練するための回答キーを作成できるようにすること。

提案手法

Wrap-Up は、抽出されたエンティティの統合・リンク・分割・破棄といったディス course レベルの意思決定をモデル化するために ID3 意思決定木を用いる。
各意思決定木は、文レベルの抽出結果から得られる言語的および位置的特徴をエンコードしたインスタンスで訓練される。
特徴には、言語的パターン（例：「X で利用可能」）のバイナリインジケータ、キーワード（例：「デュープル・アルタビオレット」）、トリガーのカウント、相対的オブジェクト距離が含まれる。
訓練段階では、手作業で作成された回答キーをゴールドスタンダードラベルとして用い、エンティティペア（例：リソグラフィー工程と装置）がリンクされているか否かを分類する。
複数の意思決定木を逐次適用する：まず会社名をフィルタリングする木、次に工程と装置をリンクする木。
モデルは MUC-4 マイクロエレクトロニクスドメインの 700 件の訓練テキストで訓練され、各エンティティペアが回答キーにアノテーションされている。

実験結果

リサーチクエスチョン

RQ1手作業によるヒューリスティクスなしで、機械学習アルゴリズムが代表的テキストコーパスから暗黙のディス course レベルの知識を効果的に抽出できるか？
RQ2コーパス駆動型アプローチにより、新しい情報抽出ドメインの開発期間を数か月から数日へ短縮できるか？
RQ3機械学習ベースのディス course 処理は、リCALL と PRECISION の面で手作業によるシステムと同等またはそれを上回る性能を達成できるか？
RQ4ガイドラインではなく回答キーからドメイン知識をどの程度正確に捉えることができるか？
RQ5ノイズに強い機械学習モデルは、文レベル抽出の誤りがあっても性能を維持できるか？

主な発見

Wrap-Up は、自動コーパス分析を用いることで、ディス course 処理の開発期間を数か月から数日へ短縮した。
MUC-4 マイクロエレクトロニクステストセットにおいて、最高性能を示したテストパーティションで F-スコア 37.5% を達成し、リCALL 34.7%、PRECISION 40.5% を記録した。
エンティティ名フィルターツリーは、会社名の精度をベースラインの 33% から 40.2% に向上させ、リCALL 34.4% を維持した。
フィルタリング段階で失われたリCALL を、新しいリンクの推論（例：装置からリソグラフィー工程を推定）や、過剰にリンクされた工程の分割によって回復した。
文レベル抽出の出力に依存しているにもかかわらず、誤検出（False Positives）を削減し、見逃された真の正例（True Positives）を回復することで、全体のシステム性能を向上させた。
このアプローチにより、NLP や機械学習の専門知識を持たないドメインエキスパートが回答キーを貢献できるようになり、システムカスタマイズの障壁を著しく低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。