QUICK REVIEW

[論文レビュー] CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering

Weiqi Wang, Tianqing Fang|arXiv (Cornell University)|May 24, 2023

Topic Modeling被引用数 8

ひとこと要約

CAR は概念化を用いて常識知識ベースを拡張し、概念制約付きディストラクターを生成して、五つのベンチマークでゼロショットの常識QAの最先端性能を達成し、平均精度で GPT-3.5 および ChatGPT を上回る。

ABSTRACT

The task of zero-shot commonsense question answering evaluates models on their capacity to reason about general scenarios beyond those presented in specific datasets. Existing approaches for tackling this task leverage external knowledge from CommonSense Knowledge Bases (CSKBs) by pretraining the model on synthetic QA pairs constructed from CSKBs. In these approaches, negative examples (distractors) are formulated by randomly sampling from CSKBs using fairly primitive keyword constraints. However, two bottlenecks limit these approaches: the inherent incompleteness of CSKBs limits the semantic coverage of synthetic QA pairs, and the lack of human annotations makes the sampled negative examples potentially uninformative and contradictory. To tackle these limitations above, we propose Conceptualization-Augmented Reasoner (CAR), a zero-shot commonsense question-answering framework that fully leverages the power of conceptualization. Specifically, CAR abstracts a commonsense knowledge triple to many higher-level instances, which increases the coverage of CSKB and expands the ground-truth answer space, reducing the likelihood of selecting false-negative distractors. Extensive experiments demonstrate that CAR more robustly generalizes to answering questions about zero-shot commonsense scenarios than existing methods, including large language models, such as GPT3.5 and ChatGPT. Our codes, data, and model checkpoints are available at https://github.com/HKUST-KnowComp/CAR.

研究の動機と目的

既存の CSKB の不完全なカバーとゼロショット常識QAにおける有益なネガティブディストラクターの欠如に対処する。
抽象的知識を追加する概念化強化フレームワークを導入して CSKB を拡張する。
合成QAペアにおける偽陰性を減らす概念制約付きネガティブサンプリング戦略を開発する。
概念化強化データ上で周辺ランク付け損失を用いてQAモデルを訓練する。
大規模言語モデルに対して一般化能力の向上と競争力のある性能を示す。

提案手法

CSKB を一段階の概念化を実施して抽象知識三重項を作成する。
(h,r,t) 三重項を h,r を質問として t を答えとする QA ペアに変換する；概念/キーワードベースの制約を用いて他の三重項からディストラクターを生成する。
ターゲット三重項と語彙または概念化の重複がないことを保証してディストラクターのサンプリングを制約する。
合成 QA ペアに対して周辺ランク付け損失で QA モデルを訓練する。
五つのベンチマークでゼロショットQA性能を評価し、LLM および従来手法と比較する。

実験結果

リサーチクエスチョン

RQ1概念化強化知識はゼロショットの常識QAにおける CSKB のカバーを広げられるか？
RQ2概念制約付きディストラクターサンプリングは偽陰性を減らし QA の品質を向上させるか？
RQ3概念化された拡張は複数のベンチマークでゼロショットの一般化を改善するか？
RQ4CAR はゼロショット設定で強力な LLM ベースライン（GPT-3.5、ChatGPT）と比較してどうか？

主な発見

Model	aNLI	CSQA	PIQA	SIQA	WG	Avg.
DeBERTa-v3-Large (MR) ATOMIC	75.1	71.6	79.0	59.7	71.7	71.4
DeBERTa-v3-Large (MR) ATM-10X	76.0	67.0	78.0	62.1	76.0	71.8
CAR-DeBERTa-v3-Large (Ours) ATOMIC	78.9	67.2	78.6	63.8	78.1	73.3
CAR-DeBERTa-v3-Large (Ours) ATM C	79.6	69.3	78.6	64.0	78.2	73.9
RoBERTa-Large (MR) ATOMIC	72.3	64.8	73.2	64.8	61.3	67.3
CAR-RoBERTa-Large (Ours) ATOMIC	72.3	64.8	73.2	64.8	61.3	67.3
CAR-RoBERTa-Large (Ours) ATM C	72.7	66.3	73.2	64.0	62.0	67.6
GPT-3.5 (text-davinci-003)	-	61.8	68.9	67.8	68.0	60.7	65.4
ChatGPT (gpt-3.5-turbo)	-	69.3	74.5	75.1	69.5	62.8	70.2

CAR は五つの常識QAベンチマークでゼロショット最先端の性能を達成した。
CAR はベンチマーク全体の平均で GPT-3.5 および ChatGPT を上回った。
概念化ベースの拡張はより多様で有益な QA ペアを生み出し、偽陰性ディストラクターを減らす。
概念化は訓練ダイナミクスを改善し、外部ドメイン一般化を支援するより曖昧な例を導入する。
ATOMIC 概念化を用いた拡張は、偽陰性が少なく、より有益な抽象知識を提供するため、ゼロショットQAにおける ATOMIC-10X ベースの拡張よりも優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。