[論文レビュー] A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias
本調査は、三つの主要な次元—コーパス、アライメント、バイアス—を横断して多言語大規模言語モデル(MLLMs)を分析し、データ、表現学習、社会的バイアスがクロスリンガルのパフォーマンスと将来の方向性をどのように形成するかを強調する。
Based on the foundation of Large Language Models (LLMs), Multilingual LLMs (MLLMs) have been developed to address the challenges faced in multilingual natural language processing, hoping to achieve knowledge transfer from high-resource languages to low-resource languages. However, significant limitations and challenges still exist, such as language imbalance, multilingual alignment, and inherent bias. In this paper, we aim to provide a comprehensive analysis of MLLMs, delving deeply into discussions surrounding these critical issues. First of all, we start by presenting an overview of MLLMs, covering their evolutions, key techniques, and multilingual capacities. Secondly, we explore the multilingual training corpora of MLLMs and the multilingual datasets oriented for downstream tasks that are crucial to enhance the cross-lingual capability of MLLMs. Thirdly, we survey the state-of-the-art studies of multilingual representations and investigate whether the current MLLMs can learn a universal language representation. Fourthly, we discuss bias on MLLMs, including its categories, evaluation metrics, and debiasing techniques. Finally, we discuss existing challenges and point out promising research directions of MLLMs.
研究の動機と目的
- MLLMsの概要、進化、コア技術、および多言語能力を含む。
- 言語分布とカバレッジを理解するために、広く用いられる多言語コーパスとデータセットを調査する。
- 多言語表現とMLLMsにおける普遍的な言語表現の可能性を評価する。
- MLLMsにおけるバイアスの種類、評価指標、デバイアス除去手法を検討し、課題と今後の方向性について議論する。
提案手法
- 基本的および最近のMLLMモデルとアーキテクチャ(エンコーダー専用、デコーダー専用、エンコーダ-デコーダ)をレビューおよび統合する。
- 事前学習パラダイムとタスク(LM、MLM、NSP、DAE)を、対応する損失の定式化とともに要約する。
- 人間のフィードバックからの強化学習(RLHF)を説明し、MLLMsを人間の価値観へ整合させる役割を述べる。
- 訓練データにおける多言語コーパスの分布、言語比率、言語族分布を分析する。
- 静的・文脈的・組み合わせた多言語表現を調査し、クロスリンガル転送に影響を与える要因を検討する。
- MLLM文献におけるバイスタイプ、評価データセット、デバイアス技術を要約する。
実験結果
リサーチクエスチョン
- RQ1現在のMLLMsに存在するバイアスの種類は何か、バイアス評価のための評価データセットと指標は何か?
- RQ2現在のMLLMsは言語を横断して普遍的な言語表現を学習できるか、そしてこの主張を支持または否定する証拠は何か?
- RQ3多言語コーパスと言語の不均衡は、特に低リソース言語に対してクロスリンガル転送性能にどのような影響を与えるか?
- RQ4MLLMsに利用可能なデバイアス除去技術は何か、そしてそれらがモデルの性能と公正さに与える影響はどのようか?
- RQ5MLLMsの今後の研究における主要な課題と有望な方向性は何か?
主な発見
- 英語が多くのMLLMsの訓練コーパスを支配しており、しばしば複数のモデルで90%を超えている。
- いくつかのモデルはより均等な言語分布を試みており、例としてBLOOM(46言語)およびGLM-130B(英語/中国語の均衡)を挙げる。
- 語族レベルの観点から英語系・インド・ユーラシア語が訓練データで顕著である一方、中国語(漢語-チベット語系)は多様性の点で顕著な例外である。
- クロスリンガル転送学習(CLTL)は直接的なクロスリンガル監督なしに生じ得、関連研究は過少代表言語にも驚くべき多言語推論を示している。
- 低リソース言語の性能は、コーパスの不均衡と多言語性の呪いのため依然として課題であり、ターゲット言語のモノリンガル事前学習やターゲットデータ拡張といったアプローチを促している。
- 本調査は代表的な多言語コーパスと下流のベンチマークを網羅し、データソース(Common Crawl、Wikipedia、Web など)とモデル間の言語カバー率を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。