QUICK REVIEW

[논문 리뷰] PPR-FCN: Weakly Supervised Visual Relation Detection via Parallel Pairwise R-FCN

Hanwang Zhang, Zawlin Kyaw|arXiv (Cornell University)|2017. 08. 07.

Multimodal Machine Learning Applications참고 문헌 49인용 수 20

한 줄 요약

PPR-FCN는 이미지 수준의 관계 애너테이션만을 사용하여 병렬적이고 쌍방향 영역 기반의 완전 컨volution 네트워크를 제안하며, 위치-역할 민감도 스코어 맵과 쌍방향 RoI 풀링을 활용해 객체를 동시에 검출하고 주어진-서술어-목적어 관계를 예측한다. 이는 VRD 및 VG 벤치마크에서 최신 기술을 초월하는 성능을 달성하며, 계산 효율성도 유지한다.

ABSTRACT

We aim to tackle a novel vision task called Weakly Supervised Visual Relation Detection (WSVRD) to detect "subject-predicate-object" relations in an image with object relation groundtruths available only at the image level. This is motivated by the fact that it is extremely expensive to label the combinatorial relations between objects at the instance level. Compared to the extensively studied problem, Weakly Supervised Object Detection (WSOD), WSVRD is more challenging as it needs to examine a large set of regions pairs, which is computationally prohibitive and more likely stuck in a local optimal solution such as those involving wrong spatial context. To this end, we present a Parallel, Pairwise Region-based, Fully Convolutional Network (PPR-FCN) for WSVRD. It uses a parallel FCN architecture that simultaneously performs pair selection and classification of single regions and region pairs for object and relation detection, while sharing almost all computation shared over the entire image. In particular, we propose a novel position-role-sensitive score map with pairwise RoI pooling to efficiently capture the crucial context associated with a pair of objects. We demonstrate the superiority of PPR-FCN over all baselines in solving the WSVRD challenge by using results of extensive experiments over two visual relation benchmarks.

연구 동기 및 목표

오직 이미지 수준의 관계 애너테이션만을 사용하여 고비용의 인스턴스 수준 레이블링을 피하는 시각 관계 검출의 과제를 해결하기 위해.
약한 감독 관계 검출에서 O(N²) 영역 쌍을 처리하는 데 발생하는 계산 및 최적화 과제를 극복하기 위해.
병렬적이고 완전 컨볼루션 아키텍처를 통해 일반화 능력을 향상시키고 局부 최적해를 피하기 위해.
인스턴스 수준의 바운딩 박스 감독 없이도 대규모 관계 검출을 위한 효율적이고 종단 간(end-to-end) 학습 및 추론을 가능하게 하기 위해.
비전-언어 이해 분야에서 새로운 것으로 여겨지며 아직 탐색되지 않은 이 분야에 대해 강력한 베이스라인을 설정하기 위해.

제안 방법

PPR-FCN는 영역 쌍에 대해 약한 감독 객체 검출(WSOD)과 약한 감독 서술어 예측(WSPP)을 동시에 수행하는 이중 브랜치 병렬 FCN 아키텍처를 사용한다.
상대적 위치와 역할에 민감한 컨볼루션 필터를 사용하여 공간적 맥락과 주어/목적어 역할을 인코딩하는 위치-역할 민감도 스코어 맵을 도입한다.
새로운 쌍방향 RoI 풀링 레이어는 관계 예측을 위한 공간적 및 역할 인식 특징을 유지하며, 영역 쌍 간의 효율적 스코어 추정을 가능하게 한다.
완전 컨볼루션 백본을 통해 전체 이미지에 걸쳐 계산을 공유함으로써, 영역별 완전 연결 네트워크에 비해 추론 비용을 크게 감소시킨다.
이미지 수준의 삼중조 애너테이션을 사용하여 종단 간 학습을 수행하며, 객체 검출과 관계 예측 간 교차 최적화를 수행한다.
영역 쌍의 진정한 바운딩 박스에 의존하지 않아 약한 감독 설정에 적합하다.

실험 결과

연구 질문

RQ1이미지 수준의 관계 애너테이션만 존재할 때, 완전 컨볼루션 네트워크가 시각 관계를 효과적으로 검출할 수 있는가?
RQ2약한 감독 관계 검출에서 공간적 맥락과 역할 맥락을 효과적으로 모델링하여 주어-목적어 간의 불일치를 방지할 수 있는가?
RQ3병렬 FCN 아키텍처는 순차적 또는 완전 연결 접근 방식에 비해 WSVRD에서 국부 최적해를 완화하고 일반화 능력을 향상시킬 수 있는가?
RQ4대규모 관계 검출에서 쌍방향 RoI 풀링과 영역별 완전 연결 하위네트워크 간의 계산 및 성능 트레이드오프는 어떠한가?
RQ5WSVRD 성능이 약한 감독 객체 검출의 품질에 얼마나 의존하는가?

주요 결과

VRD 벤치마크에서 PPR-FCN는 R@50 6.93%와 R@100 8.22%를 달성하여, 다음으로 우수한 약한 감독 방법(VTransE-MIL)의 4.09%와 6.15%를 크게 앞서며 성능을 뛰어넘었다.
VG 벤치마크에서 PPR-FCN는 R@50 2.41%와 R@100 3.23%를 기록하여, VTransE-MIL(1.53%와 2.02%) 및 기타 약한 감독 기반 기준선을 모두 앞섰다.
PPR-FCN는 10,000개의 영역 쌍을 처리함에도 불구하고 VTransE-MIL 대비 약 2배 빠른 성능을 보였으며, Titan X GPU에서 이미지당 추론 시간이 270ms에서 150ms로 감소했다.
모델의 성능은 주로 약한 감독 객체 검출 모듈에 의해 제한되며, 실패한 객체 검출이 관계 예측의 연쇄적 실패로 이어진다.
공유된 완전 컨볼루션 계산을 통해 수천 개의 영역 쌍을 효율적으로 처리할 수 있어 대규모 WSVRD가 가능해졌다.
정성적 결과 분석에서 PPR-FCN는 동일한 객체 클래스가 여러 개 존재하는 장면에서 VTransE-MIL에 비해 주어-목적어 쌍의 불일치를 줄이는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.