Skip to main content
QUICK REVIEW

[論文レビュー] Distantly Labeling Data for Large Scale Cross-Document Coreference

Sameer Singh, Michael Wick|arXiv (Cornell University)|May 24, 2010
Topic Modeling参考文献 29被引用数 18
ひとこと要約

本稿では、Wikipediaを弱い対応知識源として用い、大規模な文書間共参照データセットを自動的にラベル付けするための遠隔教師付きアプローチを提案する。92%の正確性でニューヨーク・タイムズの固有表現をWikipediaエンティティと対応付ける生成モデルを適用することで、著者たちは未観測のエンティティに対しても高い性能を示す条件付きランダムフィールド(CRF)モデルを学習し、Wikipediaデータを超えたスケーラビリティと一般化能力を実証した。

ABSTRACT

Cross-document coreference, the problem of resolving entity mentions across multi-document collections, is crucial to automated knowledge base construction and data mining tasks. However, the scarcity of large labeled data sets has hindered supervised machine learning research for this task. In this paper we develop and demonstrate an approach based on ``distantly-labeling'' a data set from which we can train a discriminative cross-document coreference model. In particular we build a dataset of more than a million people mentions extracted from 3.5 years of New York Times articles, leverage Wikipedia for distant labeling with a generative model (and measure the reliability of such labeling); then we train and evaluate a conditional random field coreference model that has factors on cross-document entities as well as mention-pairs. This coreference model obtains high accuracy in resolving mentions and entities that are not present in the training data, indicating applicability to non-Wikipedia data. Given the large amount of data, our work is also an exercise demonstrating the scalability of our approach.

研究の動機と目的

  • 知識ベース構築のための教師あり学習における主要な障壁である、大規模でラベル付きの文書間共参照データセットの不足に対処すること。
  • 大規模な文書間共参照タスクにおける手動ラベル付けの高コストと認知的負担を軽減すること。
  • 遠隔ラベル付けされたWikipediaを弱教師信号として用い、自動的に訓練データを生成するスケーラブルな手法を開発すること。
  • Wikipediaに存在しないエンティティに対しても一般化可能な、自動的にラベル付けされたデータ上で学習された条件付きランダムフィールド(CRF)モデルを訓練すること。
  • 1台のCPU上で100万件を超える固有表現を含む大規模な共参照データセットの学習と推論を、実用的な時間的・リソース制約内で完了させること。

提案手法

  • 生成確率モデルを用いて、ニューヨーク・タイムズの固有表現とWikipediaエンティティを対応付けることで、Wikipediaを遠隔ラベル付きのソースとして利用する。
  • 生成モデルを適用し、固有表現-エンティティ対応の確率を計算することで、92%の正確性でラベル付けを達成する。
  • 両方の固有表現ペairおよび文書間エンティティをカバーする要因を持つ条件付きランダムフィールド(CRF)共参照モデルを構築する。
  • 学習および推論中に指数的である仮説空間を効率的に探索するため、キャンバスベースのメトロポリス・ハスティングス提案分布を採用する。
  • 文脈類似度およびWikipediaベースの特徴を活用して、固有表現-エンティティ対応の精度とモデルの一般化能力を向上させる。
  • キャンバスを活用する提案分布の族を用いることで、計算複雑性を低減し、100万件を超える固有表現にスケーリングする。

実験結果

リサーチクエスチョン

  • RQ1Wikipediaは、大規模な文書間共参照データの自動ラベル付けに、弱教師付きソースとして効果的に利用可能だろうか?
  • RQ2生成モデルは、ニューヨーク・タイムズの固有表現をWikipediaエンティティにどの程度正確に対応付けることができるか?
  • RQ3遠隔ラベル付けされたデータで学習されたCRFモデルは、Wikipediaに存在しない固有表現やエンティティの解決に一般化できるだろうか?
  • RQ4100万件を超える固有表現を含む規模で、実用的な時間的・リソース制約内で共参照モデルの学習と推論が可能だろうか?
  • RQ5未観測エンティティに対するモデルの性能は、Wikipediaを用いた遠隔教師付きアプローチの質をどの程度裏付けているだろうか?

主な発見

  • 生成モデルは、ニューヨーク・タイムズの固有表現をWikipediaエンティティに92%の正確性で対応付けることができ、遠隔教師付きアプローチの信頼性を裏付けた。
  • 遠隔ラベル付けされたデータで学習されたCRFモデルは、Wikipediaに存在しない固有表現やエンティティに対しても高い正確性で解決を達成し、強力な一般化能力を示した。
  • 100万件を超える固有表現を含むデータセットの学習と推論が、1台のCPU上で10時間未満で完了した。これは、強力なスケーラビリティを示している。
  • キャンバスベースのメトロポリス・ハスティングスサンプリング戦略は、指数的仮説空間の探索にかかる計算負荷を効果的に低減した。
  • 未観測エンティティに対するモデルの性能は、Wikipediaを用いた遠隔教師付きアプローチが、高品質な訓練データを生成可能であることを確認した。
  • 本アプローチは、検索、レピュテーション分析、トレンド検出などの後続応用を可能にし、Wikipediaのリダイレクトおよび曖昧性解消の提案にも利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。