Skip to main content
QUICK REVIEW

[論文レビュー] Improved statistical machine translation using monolingual paraphrases

Preslav Nakov|arXiv (Cornell University)|Sep 25, 2021
Natural Language Processing Techniques参考文献 23被引用数 38
ひとこと要約

本論文は、SMTの英語訓練データを拡張するために、NP/NC構造の意味を保つ文の言い換えを生成し、既存の翻訳とペアにする単言語パラフレージング手法を提案する。データが限られている場合に特に翻訳品質を向上させる。

ABSTRACT

We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containing noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.

研究の動機と目的

  • 新たな対訳コーパスを収集するのではなく、単言語パラフレーズを用いて訓練データを拡張することにより、SMTの改善を動機づける。
  • 名詞結合(NP)/名詞句(NC)に焦点を当てた統語パラフレージング手法を開発し、パラフレーズの変種を作り出す。
  • パラフレーズ補強訓練がBLEUの有意な向上をもたらすことを示し、特にデータセットが小さい場合に顕著である。
  • 堅牢性とドメイン適応を評価するために、Europarl英語-スペイン語およびNews Commentaryドメインデータでアプローチを評価する。

提案手法

  • 構文解析器でソース文を解析し、NP/NC構造を変換する変換を再帰的に適用する(例:NP NP1 P NP2 を NP NP2 NP1、NP NP1 of NP2 を NP NP2 gen NP1)。
  • 不自然な名詞句を避け、実現可能なパラフレーズ形を決定する追加の制約を使用する。
  • 前後の語を含む文脈でパラフレーズの変種を生成・検証し、Googleヒットのパターンを使用してウェブベースの頻度チェックでパラフレーズを検証する。
  • 訓練コーパスの英語側を、これらのパラフレーズと元の外国語翻訳をペアにして拡張し、拡張データ上でSMTモデルを訓練する。
  • 必要に応じてフレーズテーブル自体の語句もパラフレーズし、パラフレーズ済みのフレーズテーブルを元のものと統合し、元のエントリを優先させる。
  • Bleuとn-gram精度を用いて、ベースライン、文レベルのパラフレーズ、フレーズテーブルのパラフレーズ、および結合システムを比較して評価する。

実験結果

リサーチクエスチョン

  • RQ1ソース側の単言語パラフレージングは、対訳データを増やさずにSMTの性能を改善できるか?
  • RQ2文をパラフレーズすることとフレーズテーブルをパラフレーズすることの翻訳品質への影響はどのようなものか?
  • RQ3パラフレーズデータを元のコーパスと結合することは、単独のパラフレーズよりもカバレッジとBleuスコアを向上させるか?
  • RQ4EuroparlからNews Commentaryへ移行する際に、ドメイン適応の観点でこの手法は効果的か?
  • RQ5SMTにおける単言語パラフレージングの実用的制約と誤りの原因は何か?

主な発見

  • パラフレーズ補強訓練は、トレーニングデータを倍増させた場合に達する効果の約33%–50%に相当するBleuの利得を生む。
  • 訓練文をパラフレーズし、それらのフレーズテーブルを元のものと結合することが、テストした構成の中で最も強い改善をもたらす。
  • フレーズテーブルのみをパラフレーズしても文の補強アプローチを上回らず、ノイズを導入する可能性がある。
  • 追加のEuroparl由来フレーズテーブルを用いたパラフレーズベースのドメイン適応は、ニュースコメンタリーにおいてベースラインを上回る多大なBleu利得を提供する。
  • このアプローチは多言語ピボットベースのパラフレージング手法と補完的であり、追加の利得のためにそれらと統合できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。