QUICK REVIEW

[論文レビュー] Learning Perceptual Inference by Contrasting

Chi Zhang, Baoxiong Jia|arXiv (Cornell University)|Nov 29, 2019

Cognitive Science and Mapping被引用数 40

ひとこと要約

CoPINetは、推定規則モジュールを組み込んだ順序不変な対比的知覚フレームワークを導入し、Raven’s Progressive Matricesの課題を解く。RAVENおよびPGMデータセットで最先端の結果を達成。

ABSTRACT

"Thinking in pictures," [1] i.e., spatial-temporal reasoning, effortless and instantaneous for humans, is believed to be a significant ability to perform logical induction and a crucial factor in the intellectual history of technology development. Modern Artificial Intelligence (AI), fueled by massive datasets, deeper models, and mighty computation, has come to a stage where (super-)human-level performances are observed in certain specific tasks. However, current AI's ability in "thinking in pictures" is still far lacking behind. In this work, we study how to improve machines' reasoning ability on one challenging task of this kind: Raven's Progressive Matrices (RPM). Specifically, we borrow the very idea of "contrast effects" from the field of psychology, cognition, and education to design and train a permutation-invariant model. Inspired by cognitive studies, we equip our model with a simple inference module that is jointly trained with the perception backbone. Combining all the elements, we propose the Contrastive Perceptual Inference network (CoPINet) and empirically demonstrate that CoPINet sets the new state-of-the-art for permutation-invariant models on two major datasets. We conclude that spatial-temporal reasoning depends on envisaging the possibilities consistent with the relations between objects and can be solved from pixel-level inputs.

研究の動機と目的

RPMタスクにおいて純粋な知覚を超えた時空間・関係推論の改善を動機づける。
候補解を比較し、識別特徴を蒸留する明確な対照機構を組み込む。
候補の順序やグリッド位置に依存しないよう、順列不変性を強制する。
知覚と共同訓練された単純な知覚推論モジュールを統合して隠れた規則を捉える。

提案手法

2層の対比を導入する：モデルレベルの対比は Contrast(F_{O∪a}) = F_{O∪a} − h(Σ_{a′∈A} F_{O∪a′}) を計算し、順列不変性を保つ対応する対比モジュール。
目的レベルの対比を、正解候補の潜在能力を誤解のある候補と比較するベースライン b(·) を用いたノイズ対比推定（NCE）バリアントで採用し、正解候補のマージンを大きくするシグモイドベースの損失（式(Eq. 8)）を最適化する。
観測Oからの隠れた規則Tを同時に推論する知覚推論ブランチを組み込み、p(T|O)をモデリングしT̂をサンプリングして最終スコアf(O∪a, T̂)を条件付ける。
候補順序や行/列配置に依存しないよう、共有エンコーダと繰り返しの対比+残差ブロックを設計して順列不変性を保証する。
CoPINetアーキテクチャを説明する：対比モジュールと残差ブロックを備えた知覚ブランチ、Gumbel-SoftMax出力を持つ推論ブランチ、対比目的で用いられる負のポテンシャルを生成するMLP。

実験結果

リサーチクエスチョン

RQ1対比機構を明示的に導入することは、単なる知覚モデルを超えたRPM風の関係推論を改善できるか。
RQ2順列不変性は候補順序によるショートカット解法を防ぎ、関係についての真の推論を促進するか。
RQ3知覚と単純な推論モジュールを共同学習することで、RPMデータセットでより良い一般化が得られるか。
RQ4ベースラインを用いた対照目的が、標準のクロスエントロピーと比較してRPM推論を導くうえでどのように違いを生むか。

主な発見

CoPINetはRAVENとPGMデータセットの両方で順列不変モデルの中で最先端の性能を達成。
RAVENデータセットではCoPINetが全体精度91.42%を達成（人間84.41%に対して）、設定によっては人間レベルの推論に近づく。
PGMデータセットではCoPINetが全体精度56.37%を達成し、他の順列不変ベースラインを上回る。
アブレーション研究により、対比モジュール・対比損失・知覚推論ブランチの各要素が有意に寄与し、対比モジュールを除くと大きく低下。
学習データ量を減らしても高性能を維持でき、RAVENでははるかに少ない例数でほぼ人間並みの性能を達成し、PGMでも強力な利益を維持。
結果は、位置情報によるショートカット学習を防ぎ、真の関係推論を促進するための順列不変性の重要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。