Skip to main content
QUICK REVIEW

[論文レビュー] Training and Scaling Preference Functions for Disambiguation

Hiyan Alshawi, David Carter|ArXiv.org|Aug 24, 1994
Natural Language Processing Techniques参考文献 21被引用数 69
ひとこと要約

本稿では、最小二乗最適化と勾配上昇法を用いた、意味的曖昧性解消における好み関数の最適スケーリング要因を自動学習する手法を提示している。この手法は、熟練者が手動で調整した重みを著しく上回る性能を示した。さらに、語の意味の間の平均距離に基づく意味的共起関数が、曖昧性解消誤差を約30%から約10%に低減することを同定した。これは相互情報量や尤度比に基づく関数を上回る性能を示した。

ABSTRACT

We present an automatic method for weighting the contributions of preference functions used in disambiguation. Initial scaling factors are derived as the solution to a least-squares minimization problem, and improvements are then made by hill-climbing. The method is applied to disambiguating sentences in the ATIS (Air Travel Information System) corpus, and the performance of the resulting scaling factors is compared with hand-tuned factors. We then focus on one class of preference function, those based on semantic lexical collocations. Experimental results are presented showing that such functions vary considerably in selecting correct analyses. In particular we define a function that performs significantly better than ones based on mutual information and likelihood ratios of lexical associations.

研究の動機と目的

  • 意味的曖昧性解消における好み関数のスケーリング要因の選択を自動化し、熟練者の手動調整を回避すること。
  • 自動的に学習されたスケーリング要因が、手動で調整されたものよりも曖昧性解消性能で優れているかどうかを評価すること。
  • さまざまな意味的共起関数の、曖昧性解消正確性を向上させる効果を比較すること。
  • 共起関数が他の好み関数と併用された状況での性能が、単体での性能よりも優れているかどうかを特定すること。
  • 本手法を音声認識や機械翻訳などの他の自然言語処理タスクに拡張する可能性を検討すること。

提案手法

  • 訓練データにおける予測された好ましい解析と実際の解析との誤差を最小化するための最小二乗法により、初期のスケーリング要因を導出する。
  • 保持されたテストセットでの性能に基づいて、反復的にスケーリング要因を改善する勾配上昇手順を用いて、初期解を最適化する。
  • ATISドメインの音声認識文のコーパスを用いて好み関数を評価し、正しい解析は骨格的フレーズ構造木から導出する。
  • 相互情報量、カイ二乗統計量、語の意味の間の平均距離に基づくさまざまな意味的共起関数を定義する。
  • 各関数の性能は、異なるスケーリング要因設定下での正しい解析の選択割合によって測定される。
  • 同じ評価指標を用いて、自動的に学習されたスケーリング要因と手動で調整されたものとを比較することで、手法の妥当性を検証する。

実験結果

リサーチクエスチョン

  • RQ1好み関数のスケーリング要因を自動で学習する手法が、手動調整よりも曖昧性解消性能を向上させることができるか。
  • RQ2意味的共起関数の異なる定式化は、曖昧性解消正確性の向上能力においてどのように比較されるか。
  • RQ3共起関数の性能は、他の好み関数との相互作用に依存するのか、それとも単体で一貫した性能を示すのか。
  • RQ4フレーズ構造木に基づく単純な訓練スコアが、複雑な曖昧性解消タスクにおける有効なスケーリング要因を導くことができるか。
  • RQ5相互情報量のような統計的測度に基づく共起関数と、意味空間における距離に基づく関数との間に、顕著な性能差があるか。

主な発見

  • 最小二乗法による導出と勾配上昇による最適化を経た自動学習スケーリング要因は、意味的曖昧性解消の正確性において、手動調整要因を著しく上回った。
  • 平均距離共起関数は、他の好み関数と併用した場合に94.3%の正しい解析を選択し、誤差を約30%から10%に低減した。
  • 同じ文脈下で、平均距離関数は相互情報量およびカイ二乗に基づく共起関数を著しく上回った。
  • 共起関数の性能は文脈に依存する:他の好み関数と併用された場合、平均距離関数の相対的優位性は維持されるが、他の関数間の差は縮小する。
  • 最も優れた性能を示した共起関数(平均距離)が、最終的な好み関数セットへの標準組み込みとして選択された。
  • 本手法は汎用的であり、音声認識に成功裏に適用可能であり、クラスタリングを用いてデータスパarsityに対処することで、機械翻訳や低リソースドメインへの拡張も可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。