Skip to main content
QUICK REVIEW

[論文レビュー] Aligning Noisy Parallel Corpora Across Language Groups : Word Pair Feature Matching by Dynamic Time Warping

Pascale Fung, Kathleen McKeown|ArXiv.org|Sep 22, 1994
Natural Language Processing Techniques参考文献 2被引用数 43
ひとこと要約

本稿では、文境界や同一文字列の一致に依存せずに、アジア語とインド・ヨーロッパ語族間のノイズの多い並列コーパスを整列化するための新規アルゴリズム、DK-vecを提案する。この手法は、頻度、位置、最近性の特徴に基づき、動的時間 warp(DTW)を用いて語対をマッチングし、整列のためのアンカーポイントとして役立つ小規模で信頼性の高い二語対訳語彙を生成する。実験では、OCRによるノイズの多いデータや多言語コーパスにおいても、名詞や専門用語のペアで高い正確性を示した。

ABSTRACT

We propose a new algorithm called DK-vec for aligning pairs of Asian/Indo-European noisy parallel texts without sentence boundaries. DK-vec improves on previous alignment algorithms in that it handles better the non-linear nature of noisy corpora. The algorithm uses frequency, position and recency information as features for pattern matching. Dynamic Time Warping is used as the matching technique between word pairs. This algorithm produces a small bilingual lexicon which provides anchor points for alignment.

研究の動機と目的

  • 文境界が存在しない、あるいは信頼できない言語グループ間のノイズの多い並列コーパスの整列化の課題に対処すること。
  • 従来の整列手法が文単位のアンカーや同一文字列(例:同源語)に依存するという制限を克服すること。これは、アジア語/インド・ヨーロッパ語族ペアでは機能しない。
  • クリーンな構造的ヒントが欠如する状況においても、小規模で信頼性の高い二語対訳語彙を推定し、整列のためのアンカーポイントとして利用できる方法を開発すること。
  • 句読点や文区切りが欠落または破損しているOCR処理済みまたはノイズの多いテキストの整列を可能にすること。
  • 機械翻訳における反復的整列アルゴリズム(例:EMに基づく手法)の堅牢な初期化を提供すること。

提案手法

  • DK-vecは、ソースおよびターゲットテキスト内の各語を、その出現頻度、位置、最近性を符号化したベクトルとして表現する。
  • 語対のベクトル間の動的時間warp(DTW)距離を計算することで類似度を測定し、整列をパターンマッチング問題として扱う。
  • アルゴリズムは、事前に定義された文境界に依存しないように、スライディングウインドウ法を用いてテキストをK個の部分に分割する。
  • DTWスコアが最小の語対が候補翻訳として選ばれ、小規模な二語対訳語彙が構築される。
  • 本手法は双方向に適用され(例:中国語→英語および英語→中国語)、結果を統合することでカバレッジと正確性が向上する。
  • 同源語や共起語(例:専門用語、固有名詞)は、言語間で類似した分布的パターンを示すという事実を活用する。

実験結果

リサーチクエスチョン

  • RQ1文境界や同一文字列の一致に依存せずに、ノイズの多い非文構造的並列コーパスから信頼性の高い二語対訳語彙を推定できるか?
  • RQ2頻度、位置、最近性の特徴に基づく語対のマッチングにおいて、動的時間warp(DTW)はどの程度効果的か?
  • RQ3得られた小規模な語彙が、その後続の整列または翻訳タスクにおける安定したアンカーポイントとして機能できるか?
  • RQ4なぜ名詞句や専門用語は、機能語や動詞よりも強い整列信号を示すのか?
  • RQ5DK-vecは、文法的構造が異なるアジア語とインド・ヨーロッパ語族の多様な言語ペアにどの程度一般化可能か?

主な発見

  • DK-vecアルゴリズムは、出力リストの最初の42項目のうち32語対が正しく整列されており、専門用語や名詞ベースの語彙に対して高い正確性を示した。
  • 図2の整列経路が、テキストレベルの歪みにもかかわらず対角的傾向を示すなど、ノイズの多いOCRデータや文境界の欠落したコーパスに対しても、堅牢な整列が達成された。
  • 名詞句や専門用語(例:'carbon monoxide'、'Deputy')は、言語間で一貫した分布的パターンを示し、強い整列信号を示した。
  • バイナリのセグメント存在に依存するのを減らすために、最近性と位置の特徴を組み込むことで、K-vecに比べてノイズ環境下でも優れた性能を発揮した。
  • 得られた語彙は、EMに基づく手法のような反復的整列手法の初期化として実用的であり、大規模な機械翻訳パイプラインへの応用可能性を示唆した。
  • DK-vecの双方向適用により、わずかに異なるが補完的な語対が得られ、両方向の統合によりカバレッジと信頼性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。