QUICK REVIEW

[論文レビュー] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

Jiayuan Mao, Chuang Gan|arXiv (Cornell University)|Apr 26, 2019

Multimodal Machine Learning Applications参考文献 52被引用数 312

ひとこと要約

NS-CL は画像と質問応答が対になったデータから視覚概念と言語意味と意味解析を共同学習し、プログラム注釈なしで解釈可能かつ構成的な視覚推論を実行するニュー・シンボリック框組を用いる。CLEVRで高い性能を達成し、新たな属性、組合せ、ドメインへ一般化する。

ABSTRACT

We propose the Neuro-Symbolic Concept Learner (NS-CL), a model that learns visual concepts, words, and semantic parsing of sentences without explicit supervision on any of them; instead, our model learns by simply looking at images and reading paired questions and answers. Our model builds an object-based scene representation and translates sentences into executable, symbolic programs. To bridge the learning of two modules, we use a neuro-symbolic reasoning module that executes these programs on the latent scene representation. Analogical to human concept learning, the perception module learns visual concepts based on the language description of the object being referred to. Meanwhile, the learned visual concepts facilitate learning new words and parsing new sentences. We use curriculum learning to guide the searching over the large compositional space of images and language. Extensive experiments demonstrate the accuracy and efficiency of our model on learning visual concepts, word representations, and semantic parsing of sentences. Further, our method allows easy generalization to new object attributes, compositions, language concepts, scenes and questions, and even new program domains. It also empowers applications including visual question answering and bidirectional image-text retrieval.

研究の動機と目的

画像と QA ペアを用いて、いかなるコンポーネントにも明示的な注釈を付けずに視覚概念、語表現、意味解析を学習する。
オブジェクトベースのシーン表現を構築し、質問を実行可能なプログラムへ翻訳する。
潜在的なシーン表現上でプログラムを実行する神経-シンボリック推論モジュールを用いて正確な回答を得る。
見慣れない属性、シーンの構成、および新しいプログラム領域への構成的一般化を達成する。
解釈可能な視覚概念を有効にしつつ、VQA および画像-テキスト検索への適用可能性を示す。

提案手法

知覚モジュールは Mask R-CNN と ResNet-34 を用いてオブジェクトベースのシーン表現を作成する。
視覚概念は、オブジェクト埋め込みを属性固有の空間へ写像するニューラル演算子として実装され、分類にはコサイン類似度を用いる。
意味解析は自然言語の質問を実行可能なプログラムの階層的ドメイン特化言語（DSL）へ翻訳する。
準シンボリックなプログラム実行器は、プログラムモジュールをシーン表現に決定論的に適用する。中間結果は微分可能性を保つためにオブジェクト上の確率的マスクとなる。
訓練は回答の最大尤度を通じて知覚と意味解析を共同で最適化する。オフポリシー探索を伴う REINFORCE がパーサを最適化し、カリキュラム学習が単純な質問から複雑な質問へと進行を導く。
カリキュラム段階: (1) オブジェクトレベルの概念, (2) 関係性概念, (3) 固定知覚を用いた複雑な質問, (4) 結合ファインチューニング。

実験結果

リサーチクエスチョン

RQ1視覚概念、言語意味論、および意味解析を、いかなるコンポーネントにも明示的な監視を与えずに、画像と QA ペアから共同で学習できるか？
RQ2神経-記号的フレームワークは、VQA タスクにおいて解釈可能な推論と堅牢な組合せ一般化を可能にするか？
RQ3プログラム注釈なしで新しい属性、組合せ、およびドメインへどの程度一般化できるか？
RQ4学習された概念は画像キャプション検索や他の DSL 主導ドメインなど、関連タスクへ転移できるか？
RQ5カリキュラム学習が、オブジェクトレベル、関係、複雑な質問の収束と性能に与える影響はどれほどか？

主な発見

NS-CL はオブジェクト特性の概念量子化をほぼ完璧に達成し、限られたデータで視覚推論に高い精度を示す（5K 枚の画像と各画像につき 20 問の訓練データ）。
このモデルは CLEVR においてプログラム注釈なしで最先端の QA 精度を達成し、プログラムトレースの完全監視を受けたモデルと比して競争力のある結果を示す。
NS-CL はロバストな組合せ一般化を示し、訓練分布を超えたより大きなシーンやより深い質問プログラムへ適応する。
学習された視覚概念は新しいタスクの画像-キャプション検索へ追加のファインチューニングなしに転移し、最小限の意味解析適応で新しい DSL へも転用可能。
NS-CL はデータ効率が高く、CLEVR データの 10% のみで特定の評価でフルデータで訓練されたベースラインに匹敵する。
アブレーション分析は、オブジェクトベースの表現と象徴的実行が解釈可能な実行トレースを提供し、知覚と推論の効果的な分離を実現することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。