Skip to main content
QUICK REVIEW

[論文レビュー] A Modality Lexicon and its use in Automatic Tagging

Kathrin Baker, Michael Bloodgood|arXiv (Cornell University)|Oct 17, 2014
Natural Language Processing Techniques参考文献 10被引用数 49
ひとこと要約

本稿では、英語の文章においてモダリティの発火要因、標的、所有者を特定するための意味的制約を反映したモダリティ語彙と、2つの自動タギングツール—文字列ベースと構造ベース—を提示する。構造ベースのタギングツールは標準的なLDCデータセットで86.3%の精度を達成し、英語=ウルドゥ語の学習コーパスに適用することで機械翻訳の品質が0.3 BLEUポイント向上し、低リソース翻訳環境におけるモダリティアノテーションの価値を示している。

ABSTRACT

This paper describes our resource-building results for an eight-week JHU Human Language Technology Center of Excellence Summer Camp for Applied Language Exploration (SCALE-2009) on Semantically-Informed Machine Translation. Specifically, we describe the construction of a modality annotation scheme, a modality lexicon, and two automated modality taggers that were built using the lexicon and annotation scheme. Our annotation scheme is based on identifying three components of modality: a trigger, a target and a holder. We describe how our modality lexicon was produced semi-automatically, expanding from an initial hand-selected list of modality trigger words and phrases. The resulting expanded modality lexicon is being made publicly available. We demonstrate that one tagger---a structure-based tagger---results in precision around 86% (depending on genre) for tagging of a standard LDC data set. In a machine translation application, using the structure-based tagger to annotate English modalities on an English-Urdu training corpus improved the translation quality score for Urdu by 0.3 Bleu points in the face of sparse training data.

研究の動機と目的

  • 意味的分析のための発火要因、標的、所有者を捉える堅牢なモダリティアノテーションスキームの開発。
  • 初期に手動で選択された発火語のリストから、部分的に自動化された拡張を用いて公開可能なモダリティ語彙の構築。
  • 自然言語理解および機械翻訳用途を想定し、文字列ベースと構造ベースの2つの自動モダリティタギングツールの設計および評価。
  • 特に訓練データが限られた状況下で、モダリティタギングが機械翻訳性能に与える影響の評価。
  • 語義的意味の曖昧さ、複雑な文法構造、カバー範囲のギャップといった、モダリティタギングにおける主な課題の同定と対策

提案手法

  • モダリティアノテーションスキームは、発火要因(例:'may', 'not')、影響を受ける命題や出来事(標的)、モダリティの経験者または認知者(所有者)という3要素を特定する。
  • モダリティ語彙は、初期の手動選択発火語セットを、文脈パターンと分布的分析を用いて部分的に自動で拡張することで構築された。
  • 文字列ベースのタギングツールは、表面的な発火語とその文法的文脈に基づいて、ヒューリスティックなルールを用いてモダリティタグを割り当てる。
  • 構造ベースのタギングツールは、文法解析とルールベースの標的同定を用い、意味的に適切な場合には動詞だけでなく名詞も標的にすることができる。
  • 平行コーパス内での構文的アライメントを用いて、英語のモダリティアノテーションをウルドゥ語に投影し、Joshua MTシステムにおけるモダリティに配慮した翻訳を可能にした。
  • 評価は、NIST 09 MTEvalデータセットから抽出した249文の手動検査を基に行われ、文単位での精度が計算された。

実験結果

リサーチクエスチョン

  • RQ1構造化されたモダリティアノテーションスキームは、多様なテキストジャンルにおけるモダリティタギングの正確性と一貫性を向上させることができるか?
  • RQ2部分的に自動化された拡張を経たモダリティ語彙は、さまざまな言語的文脈における現実世界のモダリティ表現をどの程度カバーできるか?
  • RQ3文字列ベースと構造ベースのタギングツールは、発火要因と標的を特定する際、精度と再現率においてどのように比較されるか?
  • RQ4モダリティタギングは、特に訓練データが限られた状況下で機械翻訳品質を向上させるか?
  • RQ5モダリティタギングにおける主な誤り要因は何か。また、語彙の洗練と解析の強化によってそれらの誤りはどのように軽減できるか?

主な発見

  • 構造ベースのタギングツールは、標準的なLDCデータセットで86.3%の精度を達成した。ネイティブのニューズレター文では92%の高い精度を示し、非ネイティブまたは複雑な文では83%の低い精度を示した。
  • 軽い動詞や名詞が意味的に適切な標的になっている場合でも、文法的主語(head)に依存してタギングを行うため、標的を誤って特定することが頻発した。例:'The decision should be taken' において 'taken' ではなく 'decision' が標的に誤認された。
  • 語義的意味の曖昧さが誤ったタギングを引き起こした。例:'Sikhs attacked a train' の文脈で 'attacked' をモダリティ発火要因として誤認したが、これは事実上の動詞としての意味であった。
  • 接続詞やフレーズ構造を含む複雑な発火要因を漏れなく特定できず、例:'he will not rest unless the process is completed' の 'not rest unless' が発火要因として見逃された。
  • モダリティ語彙にカバー範囲のギャップがあり、'It is not possible...' のような希少語や慣用的表現が、否定を多く含む構造で見過ごされた。
  • 機械翻訳において、モダリティタギングによりBLEUスコアが26.4から26.7に向上し、さらにエンティティアノテーションと組み合わせることで26.9に上昇した。翻訳品質向上の実証的成果が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。