Skip to main content
QUICK REVIEW

[論文レビュー] Probabilistic Coreference in Information Extraction

Andrew Kehler|ArXiv.org|Jun 10, 1997
Semantic Web and Ontologies参考文献 8被引用数 50
ひとこと要約

本稿では、情報抽出における共参照解決のための確率的アプローチを提案し、特徴ベースのモデルを用いてエンティティテンプレート間の代替的共参照構成に関する確率分布を推定する。4つの手法(一様、グリーディ、マージング意思決定、証拠ベース)を評価し、証拠ベースのモデルが交差エントロピーを顕著に低減することを示しており、これは後続の統合システムにおけるより良好にキャリブレートされた不確実性推定を示している。

ABSTRACT

Certain applications require that the output of an information extraction system be probabilistic, so that a downstream system can reliably fuse the output with possibly contradictory information from other sources. In this paper we consider the problem of assigning a probability distribution to alternative sets of coreference relationships among entity descriptions. We present the results of initial experiments with several approaches to estimating such distributions in an application using SRI's FASTUS information extraction system.

研究の動機と目的

  • 情報抽出システムが、複数のソースからの矛盾するデータとの統合を支援するために、決定論的なものではなく確率的な共参照関係を出力できるようにすること。
  • FASTUSのような既存のIEシステムの限界に対処すること。これらのシステムは、不確実性を表現しない単一の共参照構成しか出力しない。
  • 粗い文脈的特徴を用いて、共参照構成の確率分布を推定する複数の確率的モデルを評価すること。
  • 後続の統合システムで使用するにあたり、交差エントロピーで測定されたよりキャリブレートされた確率的推定をもたらすモデルを特定すること。
  • 短いドメイン固有のテキストにおける共参照集合に一般化できるモデルを、限定的な学習データで訓練可能かどうかを検討すること。

提案手法

  • システムはSRIのFASTUS IEパイプラインを用いてテキストを処理し、エンティティテンプレートを抽出し、共参照の可能性がある発話の集合から共参照集合を形成する。
  • 共参照構成は、共参照集合内のテンプレートの分割として定義され、互換性のないタイプなどの制約によって無効な構成が除外される。
  • 4つのモデルが、共参照構成に確率を割り当てるために訓練される:一様(一様事前分布)、グリーディ(最大事後確率)、マージング意思決定(ペアワイズのマージ意思決定)、証拠ベース(証拠に基づくペアワイズ確率)。
  • 証拠ベースのモデルは、文脈的特徴(例:距離、句構造的類似度、意味的整合性)に基づいたペアワイズ確率を計算し、それらを統合分布に組み合わせる。
  • モデルの性能は、ホールドアウトされたテストセットにおける交差エントロピー損失で評価され、低い値がよりキャリブレートされた確率的推定を示す。
  • モデルは、軍事メッセージテキストの小規模なドメイン固有コーパス上で訓練およびテストされ、自由テキストおよび表内のエンティティ発話から共参照集合が導出される。

実験結果

リサーチクエスチョン

  • RQ1確率的共参照解決は、後続の統合システムの出力の信頼性を向上させることができるか?
  • RQ2複数の特徴ベースのモデルの中から、共参照構成の確率分布を最も正確かつキャリブレートされたものにするのはどれか?
  • RQ3ペアワイズの証拠を集約する証拠ベースのモデルは、グリーディや一様事前分布のような単純なモデルと比較して、不確実性推定においてどのように異なるか?
  • RQ4限定的な学習データと粗い特徴セットを用いて、効果的な確率的共参照モデルを構築できる範囲はどの程度か?
  • RQ5すべてのテンプレートペア間のペアワイズ証拠を含めることで、順次的マージ意思決定を行うモデルよりも性能が向上するか?

主な発見

  • 証拠ベースのモデルは、統合テストセットで最小の交差エントロピー(1.00)を達成し、一様(2.01)、グリーディ(1.41)、マージング意思決定(1.27)モデルを顕著に上回った。
  • 統合テストセットにおいて、証拠ベースのモデルはマージング意思決定モデルと比較して10%、グリーディモデルと比較して50%の交差エントロピー低減を達成した。
  • マージング意思決定モデルは、グリーディモデルと比較して正確性の面で改善がなかったが、交差エントロピーが低く、不確実性のキャリブレーションが良好であることを示した。
  • 証拠ベースのモデルは、より直感的なマージング意思決定モデルを上回った。これは、すべてのペア間で証拠を集約するアプローチが、逐次的決定よりも効果的であることを示唆している。
  • 限定的な学習データにもかかわらず、結果は3つのテスト部門で一貫しており、粗い特徴を用いた証拠ベースのモデルの頑健性が示された。
  • 本研究は、最小限の学習データと粗い特徴を用いても、確率的共参照モデルをIEシステムに効果的に導入でき、後続の統合を支援できる可能性があると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。