[論文レビュー] Learning and Evaluating General Linguistic Intelligence
本論文は、言語タスクにおける一般的な言語知性を定義し、急速な適応を測るオンライン事前予測符号化指標を提案し、転移・一般化・忘却に関して最先端モデルを複数のNLPタスクで実証的に検証する。現行のモデルは依然としてかなりのドメイン内データを需要し、壊滅的な忘却に苦しみ、一般的な言語タスクを解決するよりも特定のデータセットに過適合していることが判明した。
We define general linguistic intelligence as the ability to reuse previously acquired knowledge about a language's lexicon, syntax, semantics, and pragmatic conventions to adapt to new tasks quickly. Using this definition, we analyze state-of-the-art natural language understanding models and conduct an extensive empirical investigation to evaluate them against these criteria through a series of experiments that assess the task-independence of the knowledge being acquired by the learning process. In addition to task performance, we propose a new evaluation metric based on an online encoding of the test data that quantifies how quickly an existing agent (model) learns a new task. Our results show that while the field has made impressive progress in terms of model architectures that generalize to many tasks, these models still require a lot of in-domain training examples (e.g., for fine tuning, training task-specific modules), and are prone to catastrophic forgetting. Moreover, we find that far from solving general tasks (e.g., document question answering), our models are overfitting to the quirks of particular datasets (e.g., SQuAD). We discuss missing components and conjecture on how to make progress toward general linguistic intelligence.
研究の動機と目的
- 新しいタスクへ迅速に適応するために、以前の言語知識を再利用する能力として、一般的な言語知性を定義する。
- タスク独立性と知識再利用の観点から、最新のNLPモデルを評価する。
- 新しいタスクでの迅速な学習を定量化するオンライン事前予測符号化指標を提案し、検証する。
- 継続学習設定における転移学習、データセット間の一般化、壊滅的忘却を分析する。
提案手法
- 2つの主要なモデルクラスを使用: Transformerベース(BERT)と再帰的(ELMo+BiDAF)アーキテクチャ。
- 自己教師あり目的および/または他の監督付きタスクで事前学習し、SQuADやMNLIなどのターゲットタスクでファインチューニングする。
- 新しいタスクを学習するのに必要な訓練例の数を測定するため、前予測符号化に基づくオンラインコード長を導入する。
- SQuADで訓練されたモデルをTriviaQA、QuAC、QA-SRL、QA-ZREデータセットでテストすることにより一般化を評価する。
- 継続学習を、タスクのシーケンス(unsupervised→SQuAD→MNLI/TriviaQA)に対して訓練することによって検討し、忘却とカリキュラム効果を研究する。
- メモリーモジュール、メタ学習、改善されたカリキュラムを通じた潜在的な改善について議論する。
実験結果
リサーチクエスチョン
- RQ1既存のモデルは、事前訓練を前提とした場合、新しい言語タスクにどれくらい迅速に適応するか?
- RQ2同じタスク内で、追加のファインチューニングなしにデータセット間でどの程度一般化するか?
- RQ3関連タスクでの事前学習が、サンプル効率とターゲットタスクの最終性能にどう影響するか?
- RQ4トレーニングカリキュラムが継続学習と以前に学んだタスクの忘却に与える影響は何か?
- RQ5メモリー学習やメタ学習アプローチは、ドメインシフトや壊滅的忘却に対するロバスト性を改善できるか?
主な発見
- 事前学習は高い性能を達成するために必要な同域データ量を大幅に削減するが、SQuADとMNLIで漸近的な性能に近づくには依然として40kの例が必要である。
- 他の監督付きタスクで事前学習されたモデルはしばしばより良いオンラインコード長を示し、最終的な精度が同程度でも実用的な学習がより速いことを示唆している。
- 高性能なSQuADモデルは、TriviaQA、QuAC、QA-SRL、QA-ZREへは、それらのデータセットからの追加訓練データなしにはあまり一般化しない。
- 継続学習は、後に来るタスクを学習する際の前のタスクを急速に忘却させ、タスク固有の最終層が存在しても忘却を引き起こすことがある。転送とメモリ機構の改善の必要性を強調する。
- ランダムなマルチタスクカリキュラムは忘却を緩和し、タスク間で競争力のある性能を達成できるが、すべてのタスクを初めから見るか再訓練が必要となる場合がある。
- 本研究は、弾性重み整合化、メモリーモジュール、メタ学習など、一般的な言語知性へ向かう可能性のある改善策を議論している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。