[論文レビュー] HellaSwag: Can a Machine Really Finish Your Sentence?
HellaSwag は、厳密な敵対的フィルタリングを経た常識的推論NLIデータセットを提示し、人間がBERTのような最先端モデルよりはるかに高い精度を示すことを示している。
Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the introduction of BERT, near human-level performance was reached. Does this mean that machines can perform human level commonsense inference? In this paper, we show that commonsense inference still proves difficult for even state-of-the-art models, by presenting HellaSwag, a new challenge dataset. Though its questions are trivial for humans (>95% accuracy), state-of-the-art models struggle (<48%). We achieve this via Adversarial Filtering (AF), a data collection paradigm wherein a series of discriminators iteratively select an adversarial set of machine-generated wrong answers. AF proves to be surprisingly robust. The key insight is to scale up the length and complexity of the dataset examples towards a critical 'Goldilocks' zone wherein generated text is ridiculous to humans, yet often misclassified by state-of-the-art models. Our construction of HellaSwag, and its resulting difficulty, sheds light on the inner workings of deep pretrained models. More broadly, it suggests a new path forward for NLP research, in which benchmarks co-evolve with the evolving state-of-the-art in an adversarial way, so as to present ever-harder challenges.
研究の動機と目的
- 既存のベンチマークを超える堅牢な常識推論の評価を動機づける。
- 事前学習とファインチューニングで人間に近い性能を達成することの限界を暴く。
- 敵対的にキュレートされたネガティブ endings を生成するための Adversarial Filtering を導入する。
- SWAG を WikiHow および ActivityNet の文脈で拡張し、推論の要求を多様化する。
- 生成 endings がモデルには難しく人間には容易な Goldilocks 条件を実証する。
提案手法
- Adversarial Filtering を用いて、敵対的で機械生成のネガティブ endings を反復的にキュレーションする。
- 最先端の生成器と識別器を組み合わせて難易度の高いネガティブを作成する。
- SWAG を WikiHow および ActivityNet の文脈で拡張し、状況の長さと多様性を増やす。
- ドメイン内評価とゼロショット一般化を評価し、ドメイン横断の転移分析を含む。
- 複数のベースライン(BERT、GPT、ESIM+ELMo、LSTM、FastText)を four-way softmax 設定で比較する。
実験結果
リサーチクエスチョン
- RQ1現在の深層事前学習モデルは、敵対的に構築されたより困難なデータ上で堅牢で人間レベルの常識推論を達成できるか。
- RQ2文脈長・言語構造・ドメインの多様性は、常識的NLIにおけるモデルの性能にどのような影響を与えるか。
- RQ3SWAG で訓練したモデルは HellaSwag に転移するか、またはその逆はどうか。これは一般的な常識推論に何を示すか。
- RQ4事前学習のスケールとファインチューニングは、敵対的に構築された常識的課題を解く上でどのような役割を果たすか。
- RQ5ゼロショットのカテゴリ一般化とドメインシフトは、HellaSwag でのモデルの精度にどのように影響するか。
主な発見
| Model | 総合 | 検証 | テスト | 同域内検証 | 同域内テスト | ゼロショット検証 | ゼロショットテスト | ActivityNet 検証 | ActivityNet テスト | WikiHow 検証 | WikiHow テスト |
|---|---|---|---|---|---|---|---|---|---|---|---|
| OpenAI GPT | 41.9 | 41.7 | 45.3 | 44.0 | 38.6 | 39.3 | 46.4 | 43.8 | 39.8 | 40.5 | |
| BERT-Base | 39.5 | 40.5 | 42.9 | 42.8 | 36.1 | 38.3 | 48.9 | 45.7 | 34.9 | 37.7 | |
| ESIM+ELMo | 33.6 | 33.3 | 35.7 | 34.2 | 31.5 | 32.3 | 37.7 | 36.6 | 31.6 | 31.5 | |
| LSTM+GloVe | 31.9 | 31.7 | 34.3 | 32.9 | 29.5 | 30.4 | 34.3 | 33.8 | 30.7 | 30.5 | |
| BERT-Large | 46.7 | 47.3 | 50.2 | 49.7 | 43.3 | 45.0 | 54.7 | 51.7 | 42.9 | 45.0 | |
| Human | 95.7 | 95.6 | 95.6 | 95.6 | 95.8 | 95.7 | 94.0 | 94.0 | 96.5 | 96.5 |
- 人間は HellaSwag で約95% の精度を達成するのに対し、強力なモデルは豊富な訓練データがあっても 50% 未満に留まる。
- BERT-Large はモデルの中で最も良い成績を示す(約47.3% 総合)ですが、人間の性能には大きく及ばず、ゼロショットカテゴリには苦戦する。
- Adversarial Filtering(AF)は Endings を多くのモデルを欺く一方、文脈長の Goldilocks ゾーン(おおよそ3文程度の文脈と2文の生成文)では人間にはしばしば意味を成さない。
- SWAG 訓練済みモデルを HellaSwag に転移させると得られる利益は限定的(SWAG 訓練モデルは HellaSwag バリデーションで約34.6%)であり、HellaSwag 訓練モデルは SWAG へ転移しにくい(LSMDC の欠落ドメインタスクで約69% の精度)。
- WikiHow は一般に機械には難しく、人間は約93% の精度、Bert-Large は約45%程度に対して。ActivityNet は人間とモデルの差が大きいが、機械の絶対的な性能は低い。
- この研究は、モデルの発展と並行してベンチマークを進化させる必要性を強調しており、人間レベルの常識推論に近づくために必要な計算ボトルネックの可能性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。