[論文レビュー] K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
K-Adapter は元の事前学習済みモデルを固定したまま、事実的知識と語学知識を注入する知識特化アダプターを追加し、継続的で分離された知識注入と下流タスクの性能向上を実現します。
We study the problem of injecting knowledge into large pre-trained models like BERT and RoBERTa. Existing methods typically update the original parameters of pre-trained models when injecting knowledge. However, when multiple kinds of knowledge are injected, the historically injected knowledge would be flushed away. To address this, we propose K-Adapter, a framework that retains the original parameters of the pre-trained model fixed and supports the development of versatile knowledge-infused model. Taking RoBERTa as the backbone model, K-Adapter has a neural adapter for each kind of infused knowledge, like a plug-in connected to RoBERTa. There is no information flow between different adapters, thus multiple adapters can be efficiently trained in a distributed way. As a case study, we inject two kinds of knowledge in this work, including (1) factual knowledge obtained from automatically aligned text-triplets on Wikipedia and Wikidata and (2) linguistic knowledge obtained via dependency parsing. Results on three knowledge-driven tasks, including relation classification, entity typing, and question answering, demonstrate that each adapter improves the performance and the combination of both adapters brings further improvements. Further analysis indicates that K-Adapter captures versatile knowledge than RoBERTa.
研究の動機と目的
- 既に学習済みの知識を上書きせずに、知識を大規模な事前学習モデルに注入する必要性を動機づける。
- バックボーンを固定したまま別々の知識アダプターを学習させる柔軟なアダプター構成のフレームワーク(K-Adapter)を提案する。
- 複数のアダプターを独立して訓練し、それらを組み合わせることで知識駆動タスクの性能を向上させられることを示す。
- 新しいアダプターが既存のアダプターに影響を与えずに継続的な知識注入を実現することを示す。
提案手法
- RoBERTaの外部に取り付けられた知識特化アダプターを導入し、バックボーンの中間隠れ状態を入力として受け取る。
- RoBERTaのパラメータを固定したまま、パラメータ数が少ないアダプターを訓練する(アダプターごと約42M)。
- アダプターを独立して異なるタスクで事前訓練する。facAdapterは関係分類(事実知識)、linAdapterは依存関係関係予測(言語知識)を担当。
- アダプター出力を、それらの表現を連結する(RoBERTaの出力とともに)下流タスク層のために結合する。複数のアダプターをタスクに合わせて結合できる。
- バックボーンとしてRoBERTa-LARGEを用い、アダプターをN=2のトランスフォーマー層、隠れ層サイズH_A=768、H_d=768、H_u=1024、A_A=12で構成する。
- 個々のアダプターおよび組み合わせからの利得を評価するため、エンティティ型付け、質問応答、関係分類で評価する。
実験結果
リサーチクエスチョン
- RQ1外部アダプターを用いて固定された事前学習済みモデルに知識を注入して、致命的忘却を起こさずに実現できるか?
- RQ2別々の事実知識アダプターと語学アダプターは知識駆動タスクに補完的な改善をもたらすか?
- RQ3複数のアダプターを組み合わせることで、単一のアダプターよりも加算的または相乗的な向上が得られるか?
- RQ4RoBERTaおよびマルチタスクのベースラインと比較して、エンティティ型付け、QA、関係分類におけるK-Adapterの性能はどうか?
- RQ5プローブ(LAMA)で測定される事実知識のモデルの記憶をK-Adapterは改善するか?
主な発見
- 各アダプター(事実及び/または言語知識)は、知識駆動タスクでRoBERTaベースラインを上回る。
- 事実知識アダプターと語学アダプターの組み合わせは、個々のアダプターを超えるさらなる改善をもたらす。
- K-Adapter (F+L) は、試験対象タスクのいくつかのデータセットで最先端の結果を達成。
- プローブによりK-AdapterはRoBERTaより豊かな事実知識を記憶しており、知識の獲得が強化されていることを示している。
- 分離されたアダプターは、再訓練なしに既に注入された知識を劣化させることなく継続的な知識注入を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。