Skip to main content
QUICK REVIEW

[論文レビュー] Large-Scale Noun Compound Interpretation Using Bootstrapping and the Web as a Corpus

Su Nam Kim, Preslav Nakov|arXiv (Cornell University)|Nov 27, 2019
Topic Modeling参考文献 40被引用数 33
ひとこと要約

論文は、Webを共同で活用して名詞句NCsと細かな言い換えパターンを解釈するためのブートストラッピングフレームワークを提示し、対象抽象関係Make 2を解釈する。ブートストラップ中に頭語(head)または修飾語(modifier)のいずれかを固定することが精度とスケーラビリティを改善するかを分析する。

ABSTRACT

Responding to the need for semantic lexical resources in natural language processing applications, we examine methods to acquire noun compounds (NCs), e.g., "orange juice", together with suitable fine-grained semantic interpretations, e.g., "squeezed from", which are directly usable as paraphrases. We employ bootstrapping and web statistics, and utilize the relationship between NCs and paraphrasing patterns to jointly extract NCs and such patterns in multiple alternating iterations. In evaluation, we found that having one compound noun fixed yields both a higher number of semantically interpreted NCs and improved accuracy due to stronger semantic restrictions.

研究の動機と目的

  • 大規模で解釈可能な名詞句(NCs)と、それらの細かなパラフレーズパターンの必要性を動機づける。
  • Webをコーパスとして用い、パターンからNCsを抽出し、NCsからパターンを抽出することを交互に行うブートストラッピング手法を開発する。
  • NCの一方の名詞(頭語または修飾語)を制約すると、抽出の質とカバレッジにどう影響するかを評価する。
  • 粗い粒度の(Make 2)と細かなパラフレーズ分布の両方で注釈付けされたNCのデータセットを提供する。

提案手法

  • NCの意味論を、パラフレーズ動詞と前置詞の分布として表現する。
  • 2段階のブートストラッピングプロセスを用いる:(i)与えられた種パターンを言い換えるNCを抽出する;(ii)発見されたNCに対して新しいパラフレーズパターンを抽出する。
  • Webベースのクエリを用いて、3つのブートストラッピング戦略(Loose、Strict、NC-only Strict)でNCとパターンを収穫する。
  • 頻度閾値とWordNetベースの名詞チェックを用いて候補をフィルタリングする;シードやすでに抽出済みのNCは許可しない;Webデータで最小共起回数を要求する。
  • 最大3回まで反復し、カバレッジと意味的正確さのバランスを取り、NCのための細かなパラフレーズ分布を生成する。

実験結果

リサーチクエスチョン

  • RQ1パターンとNCの小さなシード集合からのブートストラップで、動詞によるパラフレーズで解釈された数十万のNCへスケールできるか?
  • RQ2NCで1つの名詞(頭語または修飾語)を固定することは、抽出の精度を向上させ、意味の漂流を減らすか?
  • RQ3Loose、Strict、NC-only Strictのブートストラッピング規制間で、抽出量と精度のトレードオフはどのようになるか?
  • RQ4粗い抽象的な関係と比較して、細かなパラフレーズ動詞はNCの意味をどれだけ有益に捉えているか?
  • RQ5得られたNCデータセットは、NCの解釈を必要とするNLPアプリケーションをどのように支援するか?

主な発見

  • StrictおよびNC-only strictのブートストラッピングは、LooseブートストラッピングよりNCおよびNCパターンの精度を高く出す。
  • 厳密ブートストラッピングの下で抽出されたNCの数は著しく増加し、NC-only strictブートストラッピングはパターンの実例化が増えるため成長を加速させる。
  • 共起閾値を高く設定する(N=10)と、一般に抽出されるNCとパターンが減少するが、精度はわずかに向上する可能性がある。
  • ブートストラップされたNCには、各NCについて細かなパラフレーズ動詞の分布を対応づけることができる。
  • 比較評価は、反復を重ねるとカバレッジが高くなる一方で、精度がいくらか低下するコストがあることを示す。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。