Skip to main content
QUICK REVIEW

[논문 리뷰] Interpretable R-CNN

Tianfu Wu, Xilai Li|arXiv (Cornell University)|2017. 11. 14.
Advanced Neural Network Applications참고 문헌 69인용 수 18
한 줄 요약

이 논문은 계층적 AND-OR 그래프(AOG) 문법을 통해 해석 가능한 부분 구성 구조를 학습함으로써, RoIPooling을 AOGParsing 연산자로 대체하는 Interpretable R-CNN을 제안한다. 이는 부분 수준의 애너테이션 없이 약한 지도 학습 기반의 추출적 근거 생성을 가능하게 하며, PASCAL VOC 2007 및 2012에서 최신 기술 수준의 검출 성능를 달성하면서도 인간이 이해할 수 있는 파싱 트리를 근거로 제시한다.

ABSTRACT

This paper presents a method of learning qualitatively interpretable models in object detection using popular two-stage region-based ConvNet detection systems (i.e., R-CNN). R-CNN consists of a region proposal network and a RoI (Region-of-Interest) prediction network.By interpretable models, we focus on weakly-supervised extractive rationale generation, that is learning to unfold latent discriminative part configurations of object instances automatically and simultaneously in detection without using any supervision for part configurations. We utilize a top-down hierarchical and compositional grammar model embedded in a directed acyclic AND-OR Graph (AOG) to explore and unfold the space of latent part configurations of RoIs. We propose an AOGParsing operator to substitute the RoIPooling operator widely used in R-CNN, so the proposed method is applicable to many state-of-the-art ConvNet based detection systems. The AOGParsing operator aims to harness both the explainable rigor of top-down hierarchical and compositional grammar models and the discriminative power of bottom-up deep neural networks through end-to-end training. In detection, a bounding box is interpreted by the best parse tree derived from the AOG on-the-fly, which is treated as the extractive rationale generated for interpreting detection. In learning, we propose a folding-unfolding method to train the AOG and ConvNet end-to-end. In experiments, we build on top of the R-FCN and test the proposed method on the PASCAL VOC 2007 and 2012 datasets with performance comparable to state-of-the-art methods.

연구 동기 및 목표

  • 부분 수준의 애너테이션이 없는 상태에서 해석 가능한 약한 지도 학습 기반의 추출적 근거를 학습하는 방법을 개발하는 것.
  • 두 단계로 구성된 R-CNN 모델에 상향식으로 계층적인 AND-OR 그래프(AOG) 문법을 통합하여 잠재적인 부분 구성 구조를 모델링하는 것.
  • 검출 정확도를 유지하면서도 해석 가능성과도 어울리는 엔드 투 엔드 학습이 가능한 AOGParsing 연산자로 RoIPooling을 대체하는 것.
  • AOG에서 유도된 최적의 파싱 트리에 기반해 바운딩 박스를 실시간으로 해석할 수 있도록 하는 것.
  • 엔드 투 엔드 최적화를 위해 AOG과 ConvNet을 함께 학습하기 위한 폴딩-언폴딩 프레임워크를 사용하는 것.

제안 방법

  • RoIPooling을 대체하는 AOGParsing 연산자를 도입하여, 방향성 비순환 그래프(DAG)인 AND-OR 그래프(AOG)를 사용해 영역 제안을 계층적이고 조합적으로 파싱할 수 있도록 한다.
  • AOG는 상향식으로 계층적인 문법을 통해 부분을 객체로 조합함으로써 RoI의 구조적 해석을 가능하게 한다.
  • AOG 구조와 ConvNet 파rameter를 엔드 투 엔드로 동시에 최적화하기 위해 폴딩-언폴딩 학습 전략을 제안한다.
  • AOG는 각 RoI에 대해 가장 가능성이 높은 파싱 트리를 예측하도록 학습되며, 이는 검출 결정의 추출적 근거로 기능한다.
  • R-FCN에 통합되어 PASCAL VOC 2007 및 2012에서 평가되었으며, 경쟁 가능한 검출 정확도를 유지한다.

실험 결과

연구 질문

  • RQ1약한 지도 학습 기반으로 부분 수준의 애너테이션이 없이도 해석 가능한 부분 구성 구조를 학습할 수 있는가?
  • RQ2계층적 문법 모델을 딥 러닝 기반의 검출 프레임워크에 통합하여 해석 가능성을 향상시킬 수 있는가?
  • RQ3AOGParsing 연산자가 RoIPooling을 대체하면서도 검출 성능을 유지하거나 향상시킬 수 있는가?
  • RQ4AOG에서 유도된 최적의 파싱 트리가 인간이 이해할 수 있는 오브젝트 검출 근거로 얼마나 효과적으로 기능하는가?
  • RQ5폴딩-언폴딩 학습 방법은 AOG과 검출 네트워크를 공동 최적화하는 데 얼마나 효과적인가?

주요 결과

  • 제안된 Interpretable R-CNN는 PASCAL VOC 2007 및 2012 데이터셋에서 최신 기술 수준의 검출 성능를 달성한다.
  • 최적의 파싱 트리에서 파생된 추출적 근거를 통해 해석 가능한 부분 기반 설명을 제공함으로써 오브젝트 검출 결과를 해석 가능하게 한다.
  • AOGParsing 연산자가 RoIPooling을 성공적으로 대체하였으며, 검출 정확도를 유지하면서도 ConvNet과 함께 엔드 투 엔드 학습이 가능하게 하였다.
  • 폴딩-언폴딩 학습 전략은 AOG 구조와 검출 네트워크를 공동 최적화하는 데 효과적으로 기여하였다.
  • 이 모델은 두 단계 R-CNN 프레임워크에서 부분 구성 구조의 약한 지도 학습이 가능하고 효과적임을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.