QUICK REVIEW

[論文レビュー] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|May 15, 2019

Topic Modeling被引用数 362

ひとこと要約

本論文はエッジプロービングタスクを導入し、文脈化ワード埋め込みが文の構造についてどの情報を encoding しているかを分析する。統語的エンコーディングは強力だが、語彙ベースラインを超える意味的利得は限定的であり、BERT が顕著な改善を示す。

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

研究の動機と目的

文脈化された語彙表現が、各トークン位置でどのような言語情報を encoding しているかを理解するためにプロービングを動機づける。
固定コンテキスト埋め込みを用いて、構文的および意味的構造を評価する統一的なフレームワークとしてエッジプロービングを導入する。
4つの主要な文脈モデル（CoVe、ELMo、GPT、BERT）を、広範なサブ文タスクの集合で評価する。
contextualized representations を lexical baselines と比較して、文脈情報の寄与を分離する。

提案手法

各NLP ラベリングタスクを、トークン区間または区間のペアに対する二値ラベルを予測するタスクとして設計するエッジプロービングの設計を定義する。
固定的に事前学習されたエンコーダを用いて文脈ベクトルを生成し、区間プーリング＋MLP分類器でタスクラベルを予測する。
プロービングモデルは、与えられた区間内の埋め込みのみにアクセスし、分析がエンコーダに利用可能な情報を反映することを保証する。
OntoNotes と UD ツリーバンク由来の eight labeling tasks（POS、 constituents、 dependencies、 named entities、 SRL、 coreference、 SPR、 relation classification）を検討する。
4つのエンコーダ（CoVe、ELMo、GPT、BERT）を、語彙ベースラインおよび拡張ベースライン（語彙特徴の上に置かれたCNN、ランダムなELMo）と比較し、アーキテクチャと事前学習の効果を区別する。

実験結果

リサーチクエスチョン

RQ1文脈化埋め込みによって、各トークン位置で文の構造に関するどの情報が encoding されているのか。
RQ2文脈表現は統語的現象と意味的現象のどちらをどの程度捉えているのか。
RQ3観測された利得のうち、アーキテクチャと事前学習・長距離依存の寄与はそれぞれどの程度か。
RQ4文脈モデルは局所的な文脈に依存しているのか、それとも長距離依存をエンコードしているのか。
RQ5異なるモデル（CoVe、ELMo、GPT、BERT）は、多様なサブ文タスクの集合でどのように比較されるか。

主な発見

文脈埋め込みは、統語タスク（ Dependencies や Constituents など）で lexical baseline を一般に上回る利点を、意味タスクよりも大きく獲得する。
ELMo と GPT は CoVe を大幅に上回り、BERT は特に coreference でさらなる改善を示し、BERT-large はいくつかのタスクでエラーを大幅に減少させる。
スカラー混合（mix）による層アクティベーションの組合せは、単純な連結よりも良い結果を出すことが多く、特に BERT や GPT のような深い Transformer モデルで顕著。
意味タスクでは利得が小さくなるが、意味的なプロトロールと Winograd 型 coreference には改善が見られ、関係分類は文脈エンコーディングから著しく恩恵を受ける。
CNN ベースの局所文脈拡張が統語タスクの利得の大半を説明する一方で、いくつかの意味タスクは、全エンコーダが提供する真の長距離情報の恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。