QUICK REVIEW

[論文レビュー] Knowledge Neurons in Pretrained Transformers

Damai Dai, Dong Li|arXiv (Cornell University)|Apr 18, 2021

Topic Modeling被引用数 42

ひとこと要約

本論文は integrated-gradient アトリビューション法を用いて BERT 風トランスフォーマの知識ニューロンを同定し、これらのニューロンが事実的知識と相関し、ファインチューニングなしで知識を編集できるように操作可能であることを示す。

ABSTRACT

Large-scale pretrained language models are surprisingly good at recalling factual knowledge presented in the training corpus. In this paper, we present preliminary studies on how factual knowledge is stored in pretrained Transformers by introducing the concept of knowledge neurons. Specifically, we examine the fill-in-the-blank cloze task for BERT. Given a relational fact, we propose a knowledge attribution method to identify the neurons that express the fact. We find that the activation of such knowledge neurons is positively correlated to the expression of their corresponding facts. In our case studies, we attempt to leverage knowledge neurons to edit (such as update, and erase) specific factual knowledge without fine-tuning. Our results shed light on understanding the storage of knowledge within pretrained Transformers. The code is available at https://github.com/Hunter-DDM/knowledge-neurons.

研究の動機と目的

トランスフォーマの FFN メモリスロットとして知識ニューロンの概念を導入し、事実的知識を表現する。
これらのニューロンを識別するため、統合勾配に基づく知識アトリビューション手法を開発する。
知識ニューロンを活性化/抑制することで、知識の表現を調整できることを示す。
ファインチューニングなしで標的ニューロン操作による予備的な知識編集能力を示す。

提案手法

Transformerブロック内のFFNモジュールを2層のキー-バリュー記憶としてモデル化する（FFN^{key} と FFN^{val}）。
知識予測のニューロンレベルのアトリビューションスコアを算出するため、統合勾配を用いた知識アトリビューション手法を提案する。
勾配を積分して Attr(w_i^{(l)}) を計算し、w_i^{(l)} が0から元の値へ変化する間の勾配を積分する。
同じ事実に対する多様なプロンプトで共有されるニューロンを保持することで、粗い知識ニューロン集合を精製する。
アトリビューションベースのニューロンを、アトリビューションとして生の活性化を用いるベースラインと比較する。
ParaRelとBingRel拡張を用いてBERT-base-casedの定性的・定量的分析を行う。

実験結果

リサーチクエスチョン

RQ1事実的知識は、事前学習済みトランスフォーマのFFNモジュール内の特定のニューロンに局在化できるか。
RQ2知識ニューロンには、既知の事実や知識表現プロンプトと相関する活性化パターンがあるか。
RQ3ファインチューニングなしで、知識ニューロンの標的操作により特定の事実知識を編集または抹消できるか。
RQ4知識ニューロンはトランスフォーマ層全体にどのように分布し、異なる事実とどのように関連するか。

主な発見

知識ニューロンは知識表現と正の相関がある：抑制すると正答確率が低下し、増幅すると上昇する（抑制時約29.03%の低下；増幅時約31.17%の上昇）。
特定の事実に対する知識ニューロンは、対応する知識を表現するプロンプトでより活性化する傾向があり、頭部と尾部のエンティティを両方含むプロンプトはコントロールプロンプトより高い活性化を示す。
平均して、アトリビューション手法により事実関係ごとに約4.13個の知識ニューロンが特定される（ベースラインは3.96）。
知識ニューロンは上位のTransformer層に集中し、特定されたニューロンの大半は上層に位置する。
アトリビューション法下では、事実間のニューロンの交差が小さく、異なる関係に対してより排他的なニューロンが示唆される（ベースラインと比較して）。
2つの予備ケーススタディは、識別された知識ニューロンを編集することで事実を更新・抹消する潜在能力を示し、他の知識への影響は中程度。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。