Skip to main content
QUICK REVIEW

[論文レビュー] Indian Language Summarization using Pretrained Sequence-to-Sequence Models

Ashok Urlana, Sahil Manoj Bhatt|arXiv (Cornell University)|Mar 25, 2023
Topic Modeling被引用数 7
ひとこと要約

この論文は ILSUM(英語、ヒンディー語、グジャラーティ語)におけるインド語系言語要約のための複数の事前学習済み Seq2Seq モデルを評価し、言語別の最高性能モデルとデータ品質および k-fold クロス検証分析を詳述する。

ABSTRACT

The ILSUM shared task focuses on text summarization for two major Indian languages- Hindi and Gujarati, along with English. In this task, we experiment with various pretrained sequence-to-sequence models to find out the best model for each of the languages. We present a detailed overview of the models and our approaches in this paper. We secure the first rank across all three sub-tasks (English, Hindi and Gujarati). This paper also extensively analyzes the impact of k-fold cross-validation while experimenting with limited data size, and we also perform various experiments with a combination of the original and a filtered version of the data to determine the efficacy of the pretrained models.

研究の動機と目的

  • ILSUM コーパス(英語、ヒンディー語、グジャラーティ語)に対する事前学習済み Seq2Seq モデルの有効性を評価する。
  • 多言語モデルと言語特化モデル(MT5、MBart、IndicBART、PEGASUS、BART、T5、ProphetNet、BRIO)を比較し、言語ごとのベストアーキテクチャを特定する。
  • 限定データでのモデル性能に対するデータ品質、フィルタリング、k-fold クロス検証の影響を調査する。
  • インド語系要約データセットにおけるクロスリンガル転移潜在性とコード混合の影響を分析する。

提案手法

  • ILSUM データ(英語、ヒンディー語、グジャラーティ語)で事前学習済み Seq2Seq モデルを微調整する。
  • 全データと 10-fold クロス検証(9/1 訓練/検証分割)設定で実験を行う。
  • データ品質フィルタを適用してオリジナル、フィルタ済み、組み合わせデータセットを作成し影響を検討する。
  • ROUGE 指標(R-1、R-2、R-L)を用いて実験を評価し、平均と分散を報告する。
  • 言語ごとにモデルを比較して言語特有のベストパフォーマーを特定する(英語:PEGASUS、ヒンディー語:MT5、グジャラーティー:MBart)。
  • データ品質の影響(有効データ対フィルタ済みデータ)と、限定データ問題を緩和する際のk-foldデータの役割を評価する。

実験結果

リサーチクエスチョン

  • RQ1ILSUM の英語、ヒンディー語、グジャラーティ語の要約で最も良い ROUGE スコアを示す事前学習済み Seq2Seq モデルはどれか?
  • RQ2低リソースなインド語系設定で、完全データ微調整より k-fold クロス検証は性能を向上させるか?
  • RQ3データ品質フィルタとフィルタ済み/オリジナルデータの組み合わせはモデル性能にどう影響するか?
  • RQ4多言語モデルとモノリンガル/ターゲット言語モデルがコード混合データに与える影響は?
  • RQ5データセット特性やモデル適性の違いにより、英語、ヒンディー語、グジャラーティ語で結果は有意に異なるか?

主な発見

LangModelData compositionR-1R-2R-L
EnglishPEGASUSFull Data55.8344.5841.80
HindiMT5 basek-fold60.7251.0247.11
GujaratiMBart large 50Full Data26.1116.5112.41
  • 英語: 全データで訓練した場合、ROUGE-1/ROUGE-2/ROUGE-L のテストで PEGASUS がベスト。
  • ヒンディー語: テストデータで MT5 base(k-fold)が最良を示す。IndicBART および MT5 base 変種も有力。
  • グジャラーティ: MBart large 50 が全データ設定で最高のテスト ROUGE スコアを達成。
  • k-fold 微調整は一部の言語/モデルで全データ学習を上回る可能性があり、全データの過学習やデータ品質問題を示唆。
  • データ品質フィルタはヒンディー語で有効データを約68% に減らすが、フィルタリングを戦略的に用いるとモデル挙動を改善する可能性。
  • 言語を跨ぐと多言語モデルは一般にコード混合を処理でき、要約文には英語語が控えめに現れる(ヒンディー語: 約0.23 語、グジャラーティ: 約1.44 語)。
  • フィルタ済み+オリジナルデータの配置は一部設定でオリジナル+フィルタ済みより良好な性能を示すことがあり、純粋なフィルタ済みデータは時にテスト時にオリジナルデータに劣ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。