QUICK REVIEW

[論文レビュー] CommonGen: A Constrained Text Generation Dataset Towards Generative Commonsense Reasoning

Bill Yuchen Lin, Ming Shen|arXiv (Cornell University)|Nov 9, 2019

Topic Modeling参考文献 43被引用数 11

ひとこと要約

この論文では、35,000個の固有の概念セットにわたる79,000件の常識的記述を含む、制約付きテキスト生成タスクおよびデータセットであるCommonGenを紹介している。このタスクは、生成的常識的推論の評価を目的として設計されており、未観測の概念組み合わせにおける関係的推論と構成的一般化のモデリングを要請する。T5のような最先端モデルと人間のパフォーマンスの間には大きな性能格差が見られ、一方で、CommonsenseQAのような下流タスクへの転送性も示している。

ABSTRACT

Recently, large-scale pre-trained language models have demonstrated impressive performance on several commonsense-reasoning benchmark datasets. However, building machines with commonsense to compose realistically plausible sentences remains challenging. In this paper, we present constrained text generation task, CommonGen associated with benchmark dataset, to explicitly test machines for the ability of generative commonsense reasoning. Given set of common concepts (e.g., {dog, frisbee, catch, throw}); the task is to generate coherent sentence describing an everyday scenario using these concepts (e.g., a man throws frisbee and his dog catches it). The CommonGen task is challenging because it inherently requires 1) relational reasoning with background commonsense knowledge, and 2) compositional generalization ability to work on unseen concept combinations. Our dataset, constructed through combination of crowdsourced and existing caption corpora, consists of 79k commonsense descriptions over 35k unique concept-sets. Experiments show that there is large gap between state-of-the-art text generation models (e.g., T5) and human performance. Furthermore, we demonstrate that the learned generative commonsense reasoning capability can be transferred to improve downstream tasks such as CommonsenseQA by generating additional context.

研究の動機と目的

与えられた概念のセットを用いて、現実的で常識的整合性のある文を生成するモデルの訓練に取り組むこと。
未観測の概念組み合わせにおける関係的推論と構成的一般化の能力をモデルが果たすかを評価すること。
生成的常識的推論における人間水準とモデル水準のパフォーマンス格差を埋める。
自然言語処理における生成的常識的推論の体系的評価と改善を支援するベンチマークデータセットの構築。

提案手法

CommonGenタスクは、与えられた一般的な概念のセット（例：{ドッグ, フrisビー, 投げる, 捕まえる}）を用いて、日常的な状況を要約する1つの整合性のある文を生成することとして定義される。
データセットは、クラウドソーシングによるアノテーションと既存の画像キャプションコーパスを組み合わせることで構築され、常識的記述の多様性と現実性を確保する。
モデルは、入力された概念セットに条件付けられた流暢で文脈的に適切な文を生成するように訓練され、背景にある常識的知識の統合を要請する。
自動評価指標と人間による評価を用いて、モデル出力と人間が書いた基準文を比較する。
転移学習として、生成された文を追加の文脈として用いることで、CommonsenseQAにおけるパフォーマンスを向上させる。
T5のような最先端のシーケンス・トゥ・シーケンスモデルをCommonGenデータセット上で微調整し、その生成的常識的推論能力を評価する。

実験結果

リサーチクエスチョン

RQ1T5のような既存のテキスト生成モデルは、多様な与えられた概念を統合し、常識的関係を尊重した一貫性があり妥当な文を生成できるか？
RQ2CommonGenデータセットは、未観測の概念組み合わせにおける現在のモデルの構成的一般化の限界をどの程度露呈するか？
RQ3CommonGenで学習された生成的常識的推論能力は、CommonsenseQAのような下流タスクのパフォーマンス向上に効果的に転送可能か？
RQ4異なる種類の概念セットや文構造において、最先端モデルと人間のアノテーターのパフォーマンス格差はどのように変動するか？

主な発見

T5のような最先端のテキスト生成モデルと人間のパフォーマンスの間には、生成的常識的推論において顕著な性能格差が存在し、改善の余地が広く残っていることが示された。
未観測の概念組み合わせにおけるモデルの困難さを裏付けるように、CommonGenデータセットは関係的推論と構成的一般化の複雑さを的確に捉えている。
CommonGenデータセット上で微調整することで、CommonsenseQAのような下流タスクにおけるパフォーマンスに顕著な向上が見られ、学習された常識的推論能力の転送性が裏付けられた。
人間評価では、特に複雑または自明でない概念の組み合わせにおいて、モデルが生成した文は人間が書いた基準文よりも流暢さや妥当性に劣ることが確認された。
クラウドソーシングと既存のキャプションコーパスを用いたデータセット構築により、高品質で多様性に富み、日常的な状況を反映した現実的な常識的記述が得られた。
タスク設計により、生成的常識的推論が的確に分離され測定可能となり、今後のモデル開発のための適切なベンチマークとなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。