Skip to main content
QUICK REVIEW

[論文レビュー] AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

Xilai Li, Tianfu Wu|arXiv (Cornell University)|Nov 15, 2017
Advanced Image and Video Retrieval Techniques参考文献 35被引用数 8
ひとこと要約

AOGNetsは、ANDノード(特徴量の連結)、ORノード(特徴量の和算)、および端末ノード(特徴量のチャネル別スライス)を用いて階層的で構成的なAOG構築ブロックを構造化することで、視覚認識のための深層AND-OR文法ネットワークを導入する。これにより、エンド・トゥ・エンド学習が可能となり、CIFAR-10、CIFAR-100、ImageNet-1KにおいてResNetを上回り、DenseNetと同等の性能を発揮する。また、PASCAL VOCにおけるFaster R-CNNオブジェクト検出の性能も向上させる。

ABSTRACT

This paper presents a method of learning deep AND-OR Grammar (AOG) networks for visual recognition, which we term AOGNets. An AOGNet consists of a number of stages each of which is composed of a number of AOG building blocks. An AOG building block is designed based on a principled AND-OR grammar and represented by a hierarchical and compositional AND-OR graph. Each node applies some basic operation (e.g., Conv-BatchNorm-ReLU) to its input. There are three types of nodes: an AND-node explores composition, whose input is computed by concatenating features of its child nodes; an OR-node represents alternative ways of composition in the spirit of exploitation, whose input is the element-wise sum of features of its child nodes; and a Terminal-node takes as input a channel-wise slice of the input feature map of the AOG building block. AOGNets aim to harness the best of two worlds (grammar models and deep neural networks) in representation learning with end-to-end training. In experiments, AOGNets are tested on three highly competitive image classification benchmarks: CIFAR-10, CIFAR-100 and ImageNet-1K. AOGNets obtain better performance than the widely used Residual Net and its variants, and are tightly comparable to the Dense Net. AOGNets are also tested in object detection on the PASCAL VOC 2007 and 2012 using the vanilla Faster RCNN system and obtain better performance than the Residual Net.

研究の動機と目的

  • 視覚的表現の向上を図るため、構造的文法モデルとエンド・トゥ・エンド学習を統合した深層ニューラルネットワークアーキテクチャの開発。
  • ResNetのような固定アーキテクチャの限界を克服するため、特徴量学習における構成と選択の両方をモデル化する、構成的で階層的な構造の導入。
  • 標準モデルのアーキテクチャを変更せずに、画像分類およびオブジェクト検出ベンチマークで競争力のある性能を達成すること。
  • 文法に基づく階層的構成が、深層ネットワークにおける特徴量学習を強化することの実証。

提案手法

  • AOGNetsは複数の段階から構成され、各段階には階層的AND-ORグラフとして構造化されたAOG構築ブロックが含まれる。
  • 各AOG構築ブロックは3種類のノードタイプを用いる:ANDノード(連結による特徴量の構成)、ORノード(要素ごとの和算による代替的特徴量パス)、および端末ノード(チャネル別入力スライス)。
  • 各ノードは入力特徴量に対して標準的なディープラーニング演算(例:Conv-BatchNorm-ReLU)を適用する。
  • ネットワークはエンド・トゥ・エンドで訓練され、階層的文法構造と特徴量学習部の両方の共同最適化が可能となる。
  • アーキテクチャにより、特徴量階層における活用(ORノードを介して)と探索(ANDノードを介して)が可能となり、人間の視覚認識を模倣する。

実験結果

リサーチクエスチョン

  • RQ1文法に基づく階層的構造は、視覚認識タスクにおけるディープラーニング表現を改善できるか?
  • RQ2AND-OR文法をディープニューラルネットワークと統合することで、標準ベンチマークでの性能にどのような影響を与えるか?
  • RQ3構成的AND-OR構造は、現代の残差ネットワークや密度結合ネットワークを上回るか、同等の性能を発揮するか?
  • RQ4AOGNetアーキテクチャは、標準的なFaster R-CNNフレームワーク内に統合された場合、オブジェクト検出性能を向上させることができるか?

主な発見

  • AOGNetsはCIFAR-10、CIFAR-100、ImageNet-1Kにおいて、Residual Networksおよびその変種よりも高い分類精度を達成する。
  • AOGNetsの性能は、同じベンチマークで最先端のアーキテクチャであるDenseNetと密接に同等である。
  • Faster R-CNNフレームワークに統合された場合、AOGNetsはResNetベースのモデルと比較して、PASCAL VOC 2007および2012でのオブジェクト検出性能を向上させる。
  • AOGNetsのエンド・トゥ・エンド学習により、階層的文法構造と特徴量学習部の両方の最適化が成功裏に実施された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。