QUICK REVIEW

[논문 리뷰] Tree-Structured Reinforcement Learning for Sequential Object Localization

Zequn Jie, Xiaodan Liang|arXiv (Cornell University)|2017. 03. 08.

Robotics and Sensor-Based Localization참고 문헌 24인용 수 85

한 줄 요약

Tree-Structured RL은 상향식 트리에서 창을 순차적으로 탐색하여 여러 물체를 로컬라이즈하는 방법으로, 개선과 발견의 균형을 맞추어 더 적은 제안으로 재현율을 향상시킵니다. 듀얼 액션 트리(스케일링 및 변환)와 딥 Q-러닝을 사용하여 VOC 데이터셋에서 다중 객체 로컬라이제이션을 최적화합니다.

ABSTRACT

Existing object proposal algorithms usually search for possible object regions over multiple locations and scales separately, which ignore the interdependency among different objects and deviate from the human perception procedure. To incorporate global interdependency between objects into object localization, we propose an effective Tree-structured Reinforcement Learning (Tree-RL) approach to sequentially search for objects by fully exploiting both the current observation and historical search paths. The Tree-RL approach learns multiple searching policies through maximizing the long-term reward that reflects localization accuracies over all the objects. Starting with taking the entire image as a proposal, the Tree-RL approach allows the agent to sequentially discover multiple objects via a tree-structured traversing scheme. Allowing multiple near-optimal policies, Tree-RL offers more diversity in search paths and is able to find multiple objects with a single feed-forward pass. Therefore, Tree-RL can better cover different objects with various scales which is quite appealing in the context of object proposal. Experiments on PASCAL VOC 2007 and 2012 validate the effectiveness of the Tree-RL, which can achieve comparable recalls with current object proposal algorithms via much fewer candidate windows.

연구 동기 및 목표

전역 간 객체 의존성을 활용해 제안 윈도우를 줄이고 인간의 장면 이해를 모방하는 것을 동기부여한다.
전체 이미지에서 순차적으로 다중 객체를 로컬라이즈하는 트리 구조의 RL 프레임워크를 제안한다.
참여 객체를 세부화하는 것과 새로운 객체를 발견하는 것을 균형 있게 하는 보상 설계를 제안한다.
깊은 Q-러닝으로 학습하여 객체 간 장기 로컬라이제이션 정확성을 극대화하는 정책을 학습한다.
Tree-RL이 더 적은 제안으로 경쟁력 있는 재현율을 달성하고 Fast R-CNN과 결합했을 때 로컬라이제이션 및 검출 성능을 향상시킨다.

제안 방법

객체 로컬라이제이션을 두 가지 액션 그룹: 하위 창으로의 스케일링과 현재 창의 평행 이동으로 구성된 마르코프 결정 과정(MDP)으로 모델링한다.
상태를 현재 창의 특징, 전체 이미지의 특징 및 액션 이력의 연결(concatenation)로 구성한다.
액션 가치를 추정하는 딥 Q-네트워크를 사용하고, 경험 재생 및 ε-탐욕 탐색으로 학습한다.
각 상태에서 각 그룹에서 최적의 액션을 택해 두 개의 다음 창을 만들어 다수의 거의 최적의 탐색 경로를 가능하게 하는 트리 구조적 탐색을 사용한다.
그리드 IoU 개선과 실제 표준과의 차이를 바탕으로 보상 r(s,a)을 설계하고, 첫 번째 적중 보너스(+5)와 IoU 개선에 대한 +1/-1 이진 신호, 그리고 최초로 IoU>0.5가 달성될 때 +5 보너스를 추가한다.
VOC 2007+2012 trainval에서 25 에포크, ε를 1에서 0.1로 감소하는 어닐링, γ=0.9, 에피소드당 50 스텝, Q-러닝 업데이트를 위한 대형 재생 메모리를 사용한다.

실험 결과

연구 질문

RQ1트리 구조의 상향식 Dual-action(스케일링과 변환) 탐색이 단일 경로 RL 및 전통적 제안 방법과 비교해 더 적은 제안으로 재현율을 향상시킬 수 있는가?
RQ2전역 이미지 맥락과 액션 이력을 도입하면 VOC 데이터셋에서 스케일 간 다중 객체 로로컬라이제이션이 더 잘 가능해지는가?
RQ3제안된 보상 설계가 새로운 객체의 탐색과 발견된 객체의 정교화 사이의 탐색에 어떤 영향을 미치는가?
RQ4Fast R-CNN과 결합했을 때 Tree-RL가 다운스트림 검출 성능에 미치는 영향은 무엇인가?

주요 결과

# 스텝	대형/소형	IoU=0.5	IoU=0.6	IoU=0.7
31	대형	62.2	53.1	40.2
31	소형	18.9	15.6	11.2
31	전체	53.8	45.8	34.5
50	대형	62.3	53.2	40.4
50	소형	19.0	15.8	11.3
50	전체	53.9	45.9	34.8
63	대형	78.9	69.8	53.3
63	소형	23.2	12.5	4.5
63	전체	68.1	58.7	43.8

Tree-RL은 VOC 2007에서 RPN과 재현율이 비슷하면서도 제안 수가 크게 적다.
Tree-RL은 Fast R-CNN(ResNet-101)과 결합했을 때 RPN보다 더 높은 로컬라이제이션 정확도를 제공한다.
Tree-RL은 대부분의 설정에서 하나의 최적 검색 경로 RL보다 우수하며, 특히 큰 물체에 대해 더 그렇다.
트리 레벨이 증가함에 따라 Tree-RL의 재현율도 증가하여 스케일 전반에 걸친 물체 커버리지가 더 좋아진다는 것을 보여준다.
63 스텝에서, 대형 물체에 대한 Tree-RL 재현율은 IoU=0.5에서 78.9%, IoU=0.6에서 69.8%, IoU=0.7에서 53.3%에 달한다는 예시가 VOC07 표에서 나타난다.
VGG-16 기반 제안을 사용할 때 VOC07/12에서 Faster R-CNN 벤치마크에 비해 경쟁력 있는 검출 mAP를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.