QUICK REVIEW

[論文レビュー] Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach

Shiyang Li, Jianshu Chen|arXiv (Cornell University)|Sep 20, 2019

Topic Modeling参考文献 21被引用数 18

ひとこと要約

本論文では、構造化された知識であるConceptNetから1億6700万個の選択肢付き設問を生成することで、事前学習された言語モデルに明示的に常識的推論能力を教えるKBベースの手法を提案する。これらの設問でモデルを微調整することで、特に少データ（few-shot）設定において、常識的推論タスクの性能が著しく向上し、CommonsenseQAでは最大18%の絶対的向上を達成した。

ABSTRACT

Recently, pretrained language models (e.g., BERT) have achieved great success on many downstream natural language understanding tasks and exhibit a certain level of commonsense reasoning ability. However, their performance on commonsense tasks is still far from that of humans. As a preliminary attempt, we propose a simple yet effective method to teach pretrained models with commonsense reasoning by leveraging the structured knowledge in ConceptNet, the largest commonsense knowledge base (KB). Specifically, the structured knowledge in KB allows us to construct various logical forms, and then generate multiple-choice questions requiring commonsense logical reasoning. Experimental results demonstrate that, when refined on these training examples, the pretrained models consistently improve their performance on tasks that require commonsense reasoning, especially in the few-shot learning setting. Besides, we also perform analysis to understand which logical relations are more relevant to commonsense reasoning.

研究の動機と目的

事前学習された言語モデルの常識的推論能力を明示的に向上させること。これは、自然言語理解タスクで成功を収めているものの、現在のところ常識的推論能力が不足しているためである。
非構造化テキストにおける常識的推論のための直接的な教師信号の欠如という課題に対処するため、ConceptNetからの構造化知識を活用すること。
論理的常識的推論を要する多様で自然な言語の多肢選択設問を自動的に生成するスケーラブルな手法を開発すること。
これらの合成設問で事前学習モデルを微調整することで、下流の常識的推論ベンチマークでの性能が向上するかどうかを評価すること。
知識ベース内のどの論理的関係が人間の常識的推論に最も関連しているかを特定すること。

提案手法

論理的推論パターンを生成するため、ConceptNetからサブグラフ（A →R₁ B →R₂ C）をサンプリングする。
推論タスクをエンティティBを中心に定義するために、2つの集合R₁ = {X : A →R₁ X} および R₂ = {X : X →R₂ C} を構築する。
テキストテンプレートを用いて、論理的形を自然言語の多肢選択設問に変換し、正解1つと誤り選択肢3つを含める。
ランダムサンプリングや最近傍サンプリングなどの候補回答のサンプリング戦略を用いて、多様な誤り選択肢を生成する。
生成された合成データセットで事前学習モデル（例：BERT、XLNet）を微調整し、その常識的推論能力を向上させる。
異なる論理的形や関係タイプがモデル性能に与える影響を体系的に評価する。

実験結果

リサーチクエスチョン

RQ1ConceptNetからの構造化知識を、事前学習モデルの常識的推論能力を向上させる合成学習データとして効果的に活用できるか？
RQ2特にデータ量が少ない（少データ）状況において、知識ベースから生成された多肢選択設問で微調整された事前学習モデルの性能はどのように変化するか？
RQ3ConceptNet内のどの種類の論理的関係が常識的推論に最も関連しており、モデルの性能向上に寄与するか？
RQ4微調整による性能向上は、異なるモデルアーキテクチャーやデータセットに対して一貫して頑健か？
RQ5候補回答のサンプリング戦略の違いに対して、この手法の性能はどの程度感受性を示すか？

主な発見

生成された合成データセットでBERTを微調整した結果、CommonsenseQAにおける少データ学習で18%の絶対的向上が達成され、全訓練データの16.4%しか使用しない状況で53.43%の正答率を達成した。
全微調整データを用いた場合でも2%の正答率向上を達成し、訓練データ量のスケールにかかわらず一貫した向上が見られた。
単一関係や論理的AND推論を含む3つの単純な論理的形（#1, #2, #5）でのみ微調整したモデルが、ほぼ完全な性能に達した。これは、これらの形態が常識的推論に極めて関連していることを示している。
複雑な合成や否定を含む論理的形（#4, #7, #9）は、性能向上にほとんど寄与しなかった。これは、これらが直感的な常識的推論と一致しにくい可能性を示唆している。
ランダムサンプリングと最近傍サンプリングの両方の候補回答のサンプリング戦略に対しても、性能の変動が最小限に抑えられ、手法の頑健性が確認された。
アブレーションスタディでは、RoBERTaやXLNetといった大規模モデルに対しても同様の向上が見られたことから、性能向上が他のモデルアーキテクチャに一般化可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。