[論文レビュー] IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages
本論文は IndicTrans2 を提案し、230M バイテキストを含む Bharat Parallel Corpus Collection (BPCC) を公開、うち 126M は新規で、手動翻訳が 644K 件を含む。さらに、22 の予定言語すべてを対象とする初の n-way ベンチマークを提供し、オープンアクセスの多言語 MT モデルも提示する。
India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at https://github.com/AI4Bharat/IndicTrans2.
研究の動機と目的
- 22 の予定言語すべての大規模対訳データの不足に対処する。
- インド関連のコンテンツを網羅する多様で高品質なベンチマークを作成する。
- 22言語すべてをサポートする多言語 MT モデルを開発する。
- データ・モデル・ベンチマークを緩やかなオープンアクセスライセンスの下で公開し、広範な利用を可能にする。
提案手法
- Bharat Parallel Corpus Collection (BPCC) を公開: 230M バイテキスト、うち 126M が新規追加、644K の手動翻訳文ペアを含む。
- 多様なドメインとソース原文のテストセットを含む、22 種類のインド語全体を対象とした最初の n-way パラレルベンチマークを作成する。
- IndicTrans2 を開発、22 言語全てをサポートする多言語 MT モデルであり、複数のベンチマークで既存モデルを上回る。
- 研究および展開を促進するため、緩やかなライセンスの下でモデルとデータをオープンアクセスとして公開する。
実験結果
リサーチクエスチョン
- RQ11つの多言語モデルで22の予定インド語すべてを効果的にカバーできるか?
- RQ2新たに作成された22言語ベンチマークにおけるIndicTrans2のパフォーマンスは、従来モデルと比較してどうか?
- RQ3拡大されたBPCCデータが22言語の翻訳品質にどのような影響を与えるか?
- RQ4オープンアクセスのデータとモデルは、Indic MT研究の利用可能性と協働にどのような影響を与えるか?
主な発見
- BPCC は 230M バイテキスト対を含み、うち 126M が新規追加、644K の手動翻訳対を含む。
- 初の n-way ベンチマークは、22 言語すべてを対象とし、多様なドメインとインド由来のコンテンツを含む。
- IndicTrans2 はすべての22言語をサポートする最初のモデルであり、本研究で作成された複数のベンチマークで既存モデルを上回る。
- 著者らは、アクセス性と協力を促進するために、緩やかなライセンスでモデルとデータを公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。