Skip to main content
QUICK REVIEW

[論文レビュー] MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases

Louis Martin, Angela Fan|HAL (Le Centre pour la Communication Scientifique Directe)|May 1, 2020
Text Readability and Simplification参考文献 59被引用数 29
ひとこと要約

MUSSは、ラベル付き簡略化ペairではなく、抽出された並び替え表現データのみを用いて高精度なモデルを訓練する多言語的で教師なしの文簡略化フレームワークを導入する。意味的な文埋め込みを用いてCommon Crawlから大規模な並び替え表現コーパスを抽出し、教師なし事前学習と制御可能な生成を組み合わせることで、人間がアノテートした簡略化データを一切必要とせず、英語、フランス語、スペイン語においても教師ありの最先端の結果に匹敵またはそれを上回る性能を達成する。

ABSTRACT

Progress in sentence simplification has been hindered by a lack of labeled parallel simplification data, particularly in languages other than English. We introduce MUSS, a Multilingual Unsupervised Sentence Simplification system that does not require labeled simplification data. MUSS uses a novel approach to sentence simplification that trains strong models using sentence-level paraphrase data instead of proper simplification data. These models leverage unsupervised pretraining and controllable generation mechanisms to flexibly adjust attributes such as length and lexical complexity at inference time. We further present a method to mine such paraphrase data in any language from Common Crawl using semantic sentence embeddings, thus removing the need for labeled data. We evaluate our approach on English, French, and Spanish simplification benchmarks and closely match or outperform the previous best supervised results, despite not using any labeled simplification data. We push the state of the art further by incorporating labeled simplification data.

研究の動機と目的

  • 低リソース言語におけるラベル付き簡略化データの不足に応えるために、このようなデータを必要としない手法を開発すること。
  • ラベル付き簡略化ではなく、自動抽出された大規模な並び替え表現データを用いて多言語的文簡略化を改善すること。
  • 推論時に長さや語彙の複雑さなどの属性を柔軟に制御できる簡略化を可能にすること。
  • 並び替え表現ベースの学習が、直接的な簡略化抽出に比べてモデル性能で優れていることを示すこと。
  • 再現可能性とさらなる研究を支援するため、事前学習済みモデル、抽出された並び替え表現データ、およびコードを公開すること。

提案手法

  • 意味的な文埋め込みを用いて、Common Crawlから大規模で言語に依存しないトレーニングデータとして並び替え表現ペアを抽出する。
  • 文の流れの自然さと意味の保持を向上させるために、教師なし事前学習(例:BART)を用いたシーケンス・ツー・シーケンスモデルの訓練を行う。
  • 推論時にACCESSを用いて、長さや語彙の複雑さといった簡略化の属性を制御可能な生成を実装する。
  • 大規模な埋め込みインデックス内の文同士の意味的類似度を測定することで、並び替え表現ペアを検索ベースで特定する。
  • 文の分割、短縮、簡単な語彙の優先順位を考慮した抽出ヒューリスティクスを最適化し、簡略化の品質を向上させる。
  • 事前学習と制御可能な生成を組み合わせることで、標準的なシーケンス・ツー・シーケンスモデルを上回るモデル性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1ラベル付き簡略化データに依存せずに、文簡略化モデルが最先端の性能を達成できるか?
  • RQ2抽出された並び替え表現データで学習させたモデルが、直接抽出された簡略化ペアで学習させたモデルを上回るか?
  • RQ3Common Crawlから大規模に教師なしで並び替え表現を抽出することは、多言語的簡略化においてどの程度有効か?
  • RQ4事前学習と制御可能な生成は、簡略化の自然さ、意味の保持、簡潔さの向上にどの程度寄与するか?
  • RQ5同じフレームワークとトレーニング手順を用いて、言語固有のファインチューニングなしに複数の言語に一般化できるか?

主な発見

  • MUSSは、英語、フランス語、スペイン語において、ラベル付き簡略化データを一切使用していないにもかかわらず、教師ありの最先端モデルと同等またはそれ以上の性能を達成する。
  • 抽出された並び替え表現データで学習したモデルは、直接抽出された簡略化ペアで学習したモデルを上回り、並び替え表現抽出がより良い一般化をもたらすことを示している。
  • 抽出データ量の増加に伴い性能が著しく向上し、数百万ペアにまで拡大するトレーニングデータでSARIスコアが顕著に上昇する。
  • 教師なし事前学習(BART)と制御可能な生成(ACCESS)の組み合わせが最も強い性能を発揮し、自然さと意味の保持の両面で向上が見られる。
  • 人間による評価では、MUSSの簡略化は従来のモデルよりも自然で簡潔であり、一部のケースでは人間の基準簡略化でさえも上回っている。
  • この手法は言語にかかわらず堅牢であり、同じフレームワークとトレーニング手順を用いて英語、フランス語、スペイン語で強力な結果を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。