QUICK REVIEW

[論文レビュー] Evaluating Commonsense in Pre-trained Language Models

Xuhui Zhou, Yue Zhang|arXiv (Cornell University)|Nov 27, 2019

Topic Modeling被引用数 27

ひとこと要約

この論文は、GPT、BERT、XLNet、RoBERTaなどの事前学習済み言語モデルにおける常識的知識を、7つの多様なベンチマークを用いて評価し、尤度スコア（perplexity）を用いて意味的に妥当な文と不適切な文を区別できる能力を測定している。主な発見では、言語モデリングの目的関数が常識的理解を向上させる一方で、モデルは多段階推論において依然として失敗しており、論理的に関連する二重テストケースにおいて一貫性のない予測を示しており、表面的な推論に依存していることが明らかになった。

ABSTRACT

Contextualized representations trained over large raw text data have given remarkable improvements for NLP tasks including question answering and reading comprehension. There have been works showing that syntactic, semantic and word sense knowledge are contained in such representations, which explains why they benefit such tasks. However, relatively little work has been done investigating commonsense knowledge contained in contextualized representations, which is crucial for human question answering and reading comprehension. We study the commonsense ability of GPT, BERT, XLNet, and RoBERTa by testing them on seven challenging benchmarks, finding that language modeling and its variants are effective objectives for promoting models' commonsense ability while bi-directional context and larger training set are bonuses. We additionally find that current models do poorly on tasks require more necessary inference steps. Finally, we test the robustness of models by making dual test cases, which are correlated so that the correct prediction of one sample should lead to correct prediction of the other. Interestingly, the models show confusion on these test cases, which suggests that they learn commonsense at the surface rather than the deep level. We release a test set, named CATs publicly, for future research.

研究の動機と目的

事前学習された文脈依存型言語モデルに埋め込まれた常識的知識の程度と質を体系的に評価すること。
常識的推論を支援するのに最も適した学習目的関数とモデルアーキテクチャを特定すること。
複数の推論ステップを要する推論タスクにおいて、モデルが頑健に動作するかどうかを調査すること。
モデルが常識的判断を行う際に、表面的な手がかりに依存しているのか、それとも深い意味的理解をしているのかを、二重テストケースの整合性を測定することで評価すること。

提案手法

WSC、SWAG、HellaSwagなど7つの多様な常識的推論ベンチマークを統一されたフォーマットに変換し、尤度に基づく評価を可能にした。
正解文と不正解文のペアにおける尤度スコア（perplexity）の差を比較することでモデルのパフォーマンスを測定し、対数尤度比を用いて意思決定プロセスを分析した。
WSC、SM、ARCTの各モデルについて、4種類の摂動タイプ（追加、削除、入れ替え、置換）を用いて、各75個の二重テストインスタンスを構築した。
モデルの整合性を評価するため、元のインスタンスと二重インスタンスの両方で同じ予測（正解／不正解）を出したかどうかを確認した。
qk値を用いて各単語が意思決定に与える寄与度を可視化し、モデルの自信と推論パターンを分析した。
今後の研究を目的として、公開用テストセット「CATs」をリリースした。

実験結果

リサーチクエスチョン

RQ1GPT、BERT、XLNet、RoBERTaなどの事前学習済み言語モデルは、どの程度まで常識的知識を有しているのか。
RQ2自己回帰的（autoregressive）と双方向的（bidirectional）の学習目的（例：GPT対BERT）が、常識的推論にどのように影響を与えるか。
RQ3複数の推論ステップを要する推論タスクに、モデルは十分に一般化できるか。
RQ4論理構造は保たれるが表層形が変更された悪意ある摂動に対して、モデルの頑健性はどの程度か。
RQ5常識的判断を行う際、モデルは浅い手がかりに依存しているのか、それとも深い意味的理解をしているのか。

主な発見

GPT や RoBERTa に見られる言語モデリングの目的関数は、常識的知識の学習に有効であり、BERT や RoBERTa のような双方向モデルは性能が向上していることが示された。
大規模な学習データセットと双方向的な文脈は、常識的推論において測定可能な利点をもたらすが、依然として頑健なパフォーマンスを達成するには不十分である。
複数の推論ステップを要するタスクではモデルのパフォーマンスが著しく低いことが判明し、複雑な推論における限界が示された。
正解予測が片方のインスタンスで正しいと予測された場合、もう片方のインスタンスでも正しく予測されるという整合性は、全モデルで低く、Swap法を除いてはランダムよりわずかに高い水準にとどまった。
qk値の可視化分析により、特にAdd、Del、Sub法において、モデルが摂動に混乱していることが明らかになり、意味的理解よりも表面的なパターンに依存していることが示唆された。
最もパフォーマンスの高かったRoBERTa-largeでさえ、Sub法において44％の整合性にとどまり、人間レベルの頑健性とは著しくかけ離れ、推論の深さに根本的なギャップがあることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。