[論文レビュー] An Overview on Language Models: Recent Developments and Outlook
この論文は、言語ユニット、アーキテクチャ、訓練方法、評価、応用にわたって従来型言語モデルと事前学習済み言語モデルを概観し、事前学習時代の今後の方向性を論じる。
Language modeling studies the probability distributions over strings of texts. It is one of the most fundamental tasks in natural language processing (NLP). It has been widely used in text generation, speech recognition, machine translation, etc. Conventional language models (CLMs) aim to predict the probability of linguistic sequences in a causal manner, while pre-trained language models (PLMs) cover broader concepts and can be used in both causal sequential modeling and fine-tuning for downstream applications. PLMs have their own training paradigms (usually self-supervised) and serve as foundation models in modern NLP systems. This overview paper provides an introduction to both CLMs and PLMs from five aspects, i.e., linguistic units, architectures, training methods, evaluation methods, and applications. Furthermore, we discuss the relationship between CLMs and PLMs and shed light on the future directions of language modeling in the pre-trained era.
研究の動機と目的
- CLMsとPLMsを紹介し、それらの関係と区別を明確にする。
- 言語モデルの言語単位、アーキテクチャ、訓練方法、評価方法、応用を調査する。
- 大規模で効率的な言語モデルを含む将来の研究方向を議論する。
提案手法
- 因果的予測を用いる自己回帰モデルとしてCLMsを定義する。
- 構造的、双方向、置換などの代替LMファミリーと、文字、語/サブワード、語句、文のトークン化方式を調査する。
- アーキテクチャ(N-gram、最大エントロピー、ニューラルネット、RNN、Transformer)とその evolution を reviewする。
- 事前訓練目的(トークン予測、MLM、次文、テキスト補完等)とファインチューニング/プロンプト戦略(ファインチューニング、アダプター・チューニング、プロンプト・チューニング)を概説する。
- 評価方法( intrinsic perplexity、PLL/PPPL for bidirectional LMs、GLUE/SuperGLUE などの外部ベンチマーク)および単一指標を超えた評価(効率、バイアス、頑健性)を議論する。
実験結果
リサーチクエスチョン
- RQ1CLMsとPLMsは訓練、因果性、トークン表現の点でどのように異なるか?
- RQ2主要なLMアーキテクチャとトークン化の選択は何で、性能にどのように影響するか?
- RQ3事前訓練目的とファインチューニング/プロンプト戦略は効果的な下流転移を可能にするか?
- RQ4言語モデルは内的・外的にどのように評価され、彼らの関係はどうなるのか?
- RQ5事前訓練時代の言語モデルの将来の方向性と課題は何か?
主な発見
- PLMsは大規模なラベルなしコーパスから学習し、タスクのためにファインチューニングされる基盤モデルとして現代NLPを支配している。
- 双方向性および置換ベースのLMは厳密な因果予測の代替を提供し、柔軟な表現を可能にする。
- サブワードトークン化(BPE、WordPiece)はOOV問題を緩和し、語彙サイズと表現力のバランスを取る。
- Transformersは長距離依存と並列訓練を可能にし、エンコーダ、デコーダ、およびエンコーダ-デコーダの派生が異なるタスクに適している。
- 事前訓練目的、ファインチューニング戦略、プロンプト手法は下流の性能とタスク適応性を形作る。
- 従来の指標を超えて、効率、バイアス、頑健性はLM評価における重要な考慮事項である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。