QUICK REVIEW

[論文レビュー] CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning

Adam Dahlgren Lindström, Savitha Sam Abraham|arXiv (Cornell University)|Aug 10, 2022

Multimodal Machine Learning Applications被引用数 49

ひとこと要約

CLEVR-Math はテキストと画像を組み合わせた単純な数学ワード問題の多モーダルデータセットを導入し、ニューラルおよびニューロ・シンボリックなベースラインを評価して、操作の連鎖に対する構成的一般化が貧しいことを示す。

ABSTRACT

We introduce CLEVR-Math, a multi-modal math word problems dataset consisting of simple math word problems involving addition/subtraction, represented partly by a textual description and partly by an image illustrating the scenario. The text describes actions performed on the scene that is depicted in the image. Since the question posed may not be about the scene in the image, but about the state of the scene before or after the actions are applied, the solver envision or imagine the state changes due to these actions. Solving these word problems requires a combination of language, visual and mathematical reasoning. We apply state-of-the-art neural and neuro-symbolic models for visual question answering on CLEVR-Math and empirically evaluate their performances. Our results show how neither method generalise to chains of operations. We discuss the limitations of the two in addressing the task of multi-modal word problem solving.

研究の動機と目的

シーン内の状態変化を想定する必要があるマルチモーダルな数学ワード問題の研究を動機づける。
CLEVR を加算/減算タスクと6つの質問テンプレートを追加して、構成的推論をテストする。
オープンソースデータを提供し、データセット上でベースラインのニューラルおよびニューロ-symbolic メソッドを分析する。

提案手法

CLEVR を三つの新しい関数（減算、加算、選択ベースの演算）と、加算/減算に焦点を当てた13のテンプレートで拡張する。
各問題に、CLEVR の関数集合に対応する機能的プログラムを注釈として付与する。
データサイズを変化させ、マルチホップ訓練の有無で、CLIP ベースのニューラルベースラインと NS-VQA ニューロ・シンボリックベースラインを評価する。
シーングラフまたは同等の表現を用いて解析されたプログラムを実行し、解答を導く。
単一ホップ問題のみを訓練してマルチホップ問題をテストするゼロショットのマルチホップ評価を提供する。

実験結果

リサーチクエスチョン

RQ1標準的なニューラル VQA モデルは、複数のステップ推論を必要とするマルチモーダルな数学ワード問題を解けるか？
RQ2ニューロ-シンボリックなアプローチは、マルチモーダル設定での演算の連鎖に対して構成的に一般化できるか？
RQ3訓練データサイズとマルチホップ問題の有無が、ニューラルとニューロ_symbolic ベースラインの性能にどう影響するか？
RQ4CLEVR-Math における現在の手法の失敗モードは何か、特にマルチホップおよび敵対的質問に対しては？

主な発見

NS-VQA はマルチホップ問題を除き、CLEVR-Math のほとんどのテンプレートで CLIP を上回る。
いずれの手法も、マルチホップ/演算の連鎖問への強い一般化を達成しない。
NS-VQA は比較的小さなデータでも良好に機能し（例：例が少ないほど精度が高い）、データが増えると頭打ちになり、プログラムレベルの信号に過剰適合していることを示唆する。
CLIP はデータにスケールするが、精度が低めで頭打ちになり、回答でオフバイワンの誤りを頻繁に出す。
マルチホップの質問では、両モデルとも大幅に性能が低下し、構成的言語と推論の課題を浮き彫りにする。
マルチホップデータで訓練すると両手法は改善するが、ゼロショットのマルチホップシナリオでは完全には一般化できない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。