QUICK REVIEW

[論文レビュー] Indian Language Summarization using Pretrained Sequence-to-Sequence Models

Ashok Urlana, Sahil Manoj Bhatt|arXiv (Cornell University)|Mar 25, 2023

Topic Modeling被引用数 7

ひとこと要約

この論文は ILSUM（英語、ヒンディー語、グジャラーティ語）におけるインド語系言語要約のための複数の事前学習済み Seq2Seq モデルを評価し、言語別の最高性能モデルとデータ品質および k-fold クロス検証分析を詳述する。

ABSTRACT

The ILSUM shared task focuses on text summarization for two major Indian languages- Hindi and Gujarati, along with English. In this task, we experiment with various pretrained sequence-to-sequence models to find out the best model for each of the languages. We present a detailed overview of the models and our approaches in this paper. We secure the first rank across all three sub-tasks (English, Hindi and Gujarati). This paper also extensively analyzes the impact of k-fold cross-validation while experimenting with limited data size, and we also perform various experiments with a combination of the original and a filtered version of the data to determine the efficacy of the pretrained models.

研究の動機と目的

ILSUM コーパス（英語、ヒンディー語、グジャラーティ語）に対する事前学習済み Seq2Seq モデルの有効性を評価する。
多言語モデルと言語特化モデル（MT5、MBart、IndicBART、PEGASUS、BART、T5、ProphetNet、BRIO）を比較し、言語ごとのベストアーキテクチャを特定する。
限定データでのモデル性能に対するデータ品質、フィルタリング、k-fold クロス検証の影響を調査する。
インド語系要約データセットにおけるクロスリンガル転移潜在性とコード混合の影響を分析する。

提案手法

ILSUM データ（英語、ヒンディー語、グジャラーティ語）で事前学習済み Seq2Seq モデルを微調整する。
全データと 10-fold クロス検証（9/1 訓練/検証分割）設定で実験を行う。
データ品質フィルタを適用してオリジナル、フィルタ済み、組み合わせデータセットを作成し影響を検討する。
ROUGE 指標（R-1、R-2、R-L）を用いて実験を評価し、平均と分散を報告する。
言語ごとにモデルを比較して言語特有のベストパフォーマーを特定する（英語：PEGASUS、ヒンディー語：MT5、グジャラーティー：MBart）。
データ品質の影響（有効データ対フィルタ済みデータ）と、限定データ問題を緩和する際のk-foldデータの役割を評価する。

実験結果

リサーチクエスチョン

RQ1ILSUM の英語、ヒンディー語、グジャラーティ語の要約で最も良い ROUGE スコアを示す事前学習済み Seq2Seq モデルはどれか？
RQ2低リソースなインド語系設定で、完全データ微調整より k-fold クロス検証は性能を向上させるか？
RQ3データ品質フィルタとフィルタ済み/オリジナルデータの組み合わせはモデル性能にどう影響するか？
RQ4多言語モデルとモノリンガル/ターゲット言語モデルがコード混合データに与える影響は？
RQ5データセット特性やモデル適性の違いにより、英語、ヒンディー語、グジャラーティ語で結果は有意に異なるか？

主な発見

Lang	Model	Data composition	R-1	R-2	R-L
English	PEGASUS	Full Data	55.83	44.58	41.80
Hindi	MT5 base	k-fold	60.72	51.02	47.11
Gujarati	MBart large 50	Full Data	26.11	16.51	12.41

英語: 全データで訓練した場合、ROUGE-1/ROUGE-2/ROUGE-L のテストで PEGASUS がベスト。
ヒンディー語: テストデータで MT5 base（k-fold）が最良を示す。IndicBART および MT5 base 変種も有力。
グジャラーティ: MBart large 50 が全データ設定で最高のテスト ROUGE スコアを達成。
k-fold 微調整は一部の言語/モデルで全データ学習を上回る可能性があり、全データの過学習やデータ品質問題を示唆。
データ品質フィルタはヒンディー語で有効データを約68% に減らすが、フィルタリングを戦略的に用いるとモデル挙動を改善する可能性。
言語を跨ぐと多言語モデルは一般にコード混合を処理でき、要約文には英語語が控えめに現れる（ヒンディー語: 約0.23 語、グジャラーティ: 約1.44 語）。
フィルタ済み+オリジナルデータの配置は一部設定でオリジナル+フィルタ済みより良好な性能を示すことがあり、純粋なフィルタ済みデータは時にテスト時にオリジナルデータに劣ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。