QUICK REVIEW

[논문 리뷰] Interpretable R-CNN

Tianfu Wu, Xilai Li|arXiv (Cornell University)|2017. 11. 14.

Advanced Neural Network Applications참고 문헌 69인용 수 18

한 줄 요약

이 논문은 계층적 AND-OR 그래프(AOG) 문법을 통해 해석 가능한 부분 구성 구조를 학습함으로써, RoIPooling을 AOGParsing 연산자로 대체하는 Interpretable R-CNN을 제안한다. 이는 부분 수준의 애너테이션 없이 약한 지도 학습 기반의 추출적 근거 생성을 가능하게 하며, PASCAL VOC 2007 및 2012에서 최신 기술 수준의 검출 성능를 달성하면서도 인간이 이해할 수 있는 파싱 트리를 근거로 제시한다.

ABSTRACT

This paper presents a method of learning qualitatively interpretable models in object detection using popular two-stage region-based ConvNet detection systems (i.e., R-CNN). R-CNN consists of a region proposal network and a RoI (Region-of-Interest) prediction network.By interpretable models, we focus on weakly-supervised extractive rationale generation, that is learning to unfold latent discriminative part configurations of object instances automatically and simultaneously in detection without using any supervision for part configurations. We utilize a top-down hierarchical and compositional grammar model embedded in a directed acyclic AND-OR Graph (AOG) to explore and unfold the space of latent part configurations of RoIs. We propose an AOGParsing operator to substitute the RoIPooling operator widely used in R-CNN, so the proposed method is applicable to many state-of-the-art ConvNet based detection systems. The AOGParsing operator aims to harness both the explainable rigor of top-down hierarchical and compositional grammar models and the discriminative power of bottom-up deep neural networks through end-to-end training. In detection, a bounding box is interpreted by the best parse tree derived from the AOG on-the-fly, which is treated as the extractive rationale generated for interpreting detection. In learning, we propose a folding-unfolding method to train the AOG and ConvNet end-to-end. In experiments, we build on top of the R-FCN and test the proposed method on the PASCAL VOC 2007 and 2012 datasets with performance comparable to state-of-the-art methods.

연구 동기 및 목표

부분 수준의 애너테이션이 없는 상태에서 해석 가능한 약한 지도 학습 기반의 추출적 근거를 학습하는 방법을 개발하는 것.
두 단계로 구성된 R-CNN 모델에 상향식으로 계층적인 AND-OR 그래프(AOG) 문법을 통합하여 잠재적인 부분 구성 구조를 모델링하는 것.
검출 정확도를 유지하면서도 해석 가능성과도 어울리는 엔드 투 엔드 학습이 가능한 AOGParsing 연산자로 RoIPooling을 대체하는 것.
AOG에서 유도된 최적의 파싱 트리에 기반해 바운딩 박스를 실시간으로 해석할 수 있도록 하는 것.
엔드 투 엔드 최적화를 위해 AOG과 ConvNet을 함께 학습하기 위한 폴딩-언폴딩 프레임워크를 사용하는 것.

제안 방법

RoIPooling을 대체하는 AOGParsing 연산자를 도입하여, 방향성 비순환 그래프(DAG)인 AND-OR 그래프(AOG)를 사용해 영역 제안을 계층적이고 조합적으로 파싱할 수 있도록 한다.
AOG는 상향식으로 계층적인 문법을 통해 부분을 객체로 조합함으로써 RoI의 구조적 해석을 가능하게 한다.
AOG 구조와 ConvNet 파rameter를 엔드 투 엔드로 동시에 최적화하기 위해 폴딩-언폴딩 학습 전략을 제안한다.
AOG는 각 RoI에 대해 가장 가능성이 높은 파싱 트리를 예측하도록 학습되며, 이는 검출 결정의 추출적 근거로 기능한다.
R-FCN에 통합되어 PASCAL VOC 2007 및 2012에서 평가되었으며, 경쟁 가능한 검출 정확도를 유지한다.

실험 결과

연구 질문

RQ1약한 지도 학습 기반으로 부분 수준의 애너테이션이 없이도 해석 가능한 부분 구성 구조를 학습할 수 있는가?
RQ2계층적 문법 모델을 딥 러닝 기반의 검출 프레임워크에 통합하여 해석 가능성을 향상시킬 수 있는가?
RQ3AOGParsing 연산자가 RoIPooling을 대체하면서도 검출 성능을 유지하거나 향상시킬 수 있는가?
RQ4AOG에서 유도된 최적의 파싱 트리가 인간이 이해할 수 있는 오브젝트 검출 근거로 얼마나 효과적으로 기능하는가?
RQ5폴딩-언폴딩 학습 방법은 AOG과 검출 네트워크를 공동 최적화하는 데 얼마나 효과적인가?

주요 결과

제안된 Interpretable R-CNN는 PASCAL VOC 2007 및 2012 데이터셋에서 최신 기술 수준의 검출 성능를 달성한다.
최적의 파싱 트리에서 파생된 추출적 근거를 통해 해석 가능한 부분 기반 설명을 제공함으로써 오브젝트 검출 결과를 해석 가능하게 한다.
AOGParsing 연산자가 RoIPooling을 성공적으로 대체하였으며, 검출 정확도를 유지하면서도 ConvNet과 함께 엔드 투 엔드 학습이 가능하게 하였다.
폴딩-언폴딩 학습 전략은 AOG 구조와 검출 네트워크를 공동 최적화하는 데 효과적으로 기여하였다.
이 모델은 두 단계 R-CNN 프레임워크에서 부분 구성 구조의 약한 지도 학습이 가능하고 효과적임을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.