Skip to main content
QUICK REVIEW

[論文レビュー] A Simple Method for Commonsense Reasoning

Trieu H. Trinh, Quoc V. Le|arXiv (Cornell University)|Jun 7, 2018
Natural Language Processing Techniques参考文献 38被引用数 312
ひとこと要約

著者らは、多様な未ラベルコーパスで訓練された教師なしの大規模言語モデルが、候補置換をスコアリングすることにより Winograd Schema の課題と代名詞の曖昧さ解消問題を解くことができ、手作りの特徴量や注釈付き知識ベースを用いずに最先端の精度を達成している。

ABSTRACT

Commonsense reasoning is a long-standing challenge for deep learning. For example, it is difficult to use neural networks to tackle the Winograd Schema dataset (Levesque et al., 2011). In this paper, we present a simple method for commonsense reasoning with neural networks, using unsupervised learning. Key to our method is the use of language models, trained on a massive amount of unlabled data, to score multiple choice questions posed by commonsense reasoning tests. On both Pronoun Disambiguation and Winograd Schema challenges, our models outperform previous state-of-the-art methods by a large margin, without using expensive annotated knowledge bases or hand-engineered features. We train an array of large RNN language models that operate at word or character level on LM-1-Billion, CommonCrawl, SQuAD, Gutenberg Books, and a customized corpus for this task and show that diversity of training data plays an important role in test performance. Further analysis also shows that our system successfully discovers important features of the context that decide the correct answer, indicating a good grasp of commonsense knowledge.

研究の動機と目的

  • commonsense reasoning を、ラベル付きデータが不足している低監視問題として動機づける。
  • Winograd Schema および PDP タスクにおける候補置換をスコアリングするための言語モデルを用いた単純な手法を提案する。
  • 多様なコーパスで訓練されたアンサンブルモデルが、従来の最先端手法を上回ることを示す。
  • 推論ベンチマークでの性能に対して、スコアリング戦略と訓練データの多様性がどのように影響するかを分析する。

提案手法

  • 文中の代名詞を候補参照ごとに置換し、置換後の文を言語モデルでスコアリングする。
  • Score_full と、置換後の末尾の条件付き確率(Score_partial)を比較する。
  • 大規模な未ラベルコーパス上で単語ベースおよび文字ベースのLMを訓練し(LM-1-Billion, CommonCrawl, SQuAD, Gutenberg, STORIES)、それらの出力をアンサンルする。
  • 注釈付き知識ベースなしで推論能力を測定するため、PDP-60 および WSC-273 で評価する。
  • Winograd Schema タスクの性能をさらに向上させるため、CommonCrawl 由来のカスタマイズ STORYS コーパスを探索する。
  • per-token の確率比を調べて、意思決定に重要なキーワードの特徴を分析する。

実験結果

リサーチクエスチョン

  • RQ1教師なし言語モデルは大規模な未ラベルコーパスから十分な常識推論を学習して、Winograd Schema および代名詞の曖昧さ解消タスクを解決できるか。
  • RQ2 スコアリング手法(全体 vs 部分)が推論性能に影響を与えるか、そして訓練データの多様性が結果にどのように影響するか。
  • RQ3 コーパスの選択が常識タスクのLM性能に与える影響は何か、Storyライクなコーパスが追加の利益をもたらすか。
  • RQ4 diverseコーパラを訓練した複数LMのアンサンブルは、単一モデルや知識ベースを用いるモデルを上回るか。
  • RQ5 モデルは Winograd Schema の意思決定を駆動するキーワードや特殊な語を特定できるか。

主な発見

MethodPDP-60 AccuracyWSC-273 Accuracy
Unsupervised Semantic Similarity Method (USSM)48.3%N/A
USSM + Cause-Effect Knowledge Base55.0%N/A
USSM + Cause-Effect + WordNet + ConceptNet56.7%N/A
Char-LM - partial45.0%N/A
Char-LM - full53.3%N/A
Word-LM - partial53.3%56.4%
Word-LM - full60.0%53.8%
Ensemble of 5 Unsupervised LMs - full70.0%N/A
ENSEMBLE of 10 Unsupervised LMs - partialN/A61.5%
Word-LM - STORIES (single model)N/A62.6%
ENSEMBLE of 14 LMs - STORIES + othersN/A63.7%
  • 全スコアリングを用いた場合、単一モデルの LM が PDP-60 で従来の方法を上回り、Word-LM-full が 60.0% の精度を達成。
  • 未監視LMのアンサンブルは前回の PDP-60 最良結果(66.7%)を上回り、70.0% の精度を達成。
  • WSC-273 では Word-LM-full が 53.8% の精度、Word-LM-partial が 56.4% の精度。
  • diverse corpora で訓練した 10 個のLM のアンサンブルは WSC-273 で 61.5% の精度を達成し、STORIES を含む拡張アンサンブルで 63.7%。
  • 部分スコアリングは、WSC-273 および PDP データセットで一貫して全体スコアリングを上回り、Score_full の正規化は PDP-122 で役立つ。
  • STORIES コーパスでの訓練は強力な単一モデル性能(62.6%)を示し、アンサンブルに STORY ベースのモデルを追加することで最終的な WSC-273 の精度を 63.7% に改善。
  • 訓練データの多様性は有益であり、多様なコーパスで訓練されたアンサンブルは単一コーパスで訓練されたものより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。