Skip to main content
QUICK REVIEW

[논문 리뷰] RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection

Hangjie Yuan, Jianwen Jiang|arXiv (Cornell University)|2022. 09. 05.
Multimodal Machine Learning Applications인용 수 29
한 줄 요약

RLIP-ParSe는 병렬 개체 탐지와 순차 관계 추론 구조와 함께 관계형 언어-이미지 사전 학습을 도입하고, 데이터 및 라벨 처리 전략을 더해 제로샷, 소샷 및 미세 조정 설정에서 HOI 탐지를 향상시키고 노이즈 라벨에 대한 강인성을 높인다.

ABSTRACT

The task of Human-Object Interaction (HOI) detection targets fine-grained visual parsing of humans interacting with their environment, enabling a broad range of applications. Prior work has demonstrated the benefits of effective architecture design and integration of relevant cues for more accurate HOI detection. However, the design of an appropriate pre-training strategy for this task remains underexplored by existing approaches. To address this gap, we propose Relational Language-Image Pre-training (RLIP), a strategy for contrastive pre-training that leverages both entity and relation descriptions. To make effective use of such pre-training, we make three technical contributions: (1) a new Parallel entity detection and Sequential relation inference (ParSe) architecture that enables the use of both entity and relation descriptions during holistically optimized pre-training; (2) a synthetic data generation framework, Label Sequence Extension, that expands the scale of language data available within each minibatch; (3) mechanisms to account for ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the influence of ambiguous/noisy samples in the pre-training data. Through extensive experiments, we demonstrate the benefits of these contributions, collectively termed RLIP-ParSe, for improved zero-shot, few-shot and fine-tuning HOI detection performance as well as increased robustness to learning from noisy annotations. Code will be available at https://github.com/JacobYuan7/RLIP.

연구 동기 및 목표

  • 관계형 언어 감독을 통해 다운스트림 작업과 일치하는 사전 학습을 통해 HOI 탐지 향상을 유도한다.
  • 교차 모달 학습 향상을 위한 주체(subject), 객체(object), 관계 표현을 분리하는 ParSe 아키텍처를 제안한다.
  • 미니배치 내에서 언어 감독을 확장하기 위한 라벨 시퀀스 확장(Label Sequence Extension)을 도입한다.
  • Relational Quality Labels와 Relational Pseudo-Labels를 사용하여 라벨 노이즈와 의미 모호성을 완화한다.

제안 방법

  • ParSe를 도입한다: 주체/객체 병렬 탐지와 순차 관계 추론을 갖춘 DETR 유사 아키텍처로, 분리된 엔티티 및 관계 표현을 가능하게 한다.
  • 이미지 특징과 엔티티 및 관계에 대한 자유 형식 텍스트 설명 간의 교차 모달 대응 관계를 학습하기 위해 RLIP를 적용한다.
  • 배치 내 라벨을 배치 외 설명으로 확장하여 음수 샘플을 합성하는 라벨 시퀀스 확장을 사용한다.
  • 주체/객체 탐지 품질에 따라 관계 텍스트 신뢰도를 조정하는 Relational Quality Labels로 라벨 노이즈를 완화한다.
  • 텍스트 임베딩 유사성을 통해 유사한 관계 라벨을 전파하는 Relational Pseudo-Labels로 의미 모호성을 완화한다.

실험 결과

연구 질문

  • RQ1전통적인 객체 중심 사전 학습을 넘어 관계형 언어-이미지 사전 학습이 HOI 탐지를 개선할 수 있는가?
  • RQ2주체, 객체, 관계 표현의 분리(ParSe)가 HOI 작업을 위한 교차 모달 정렬을 더 잘 지원하는가?
  • RQ3합성 음수 샘플링(LSE)과 라벨/노이즈 처리(RQL, RPL)가 제로샷, 소샷 및 미세 조정 HOI 성능에 어떤 영향을 미치는가?
  • RQ4자유 형식 언어의 노이즈가 있는 관계 주석 및 의미적 동의어에 대해 RLIP-ParSe가 강건한가?

주요 결과

  • RLIP 사전 학습이 HOI 탐지를 위한 VG에서 일반 객체 탐지 사전 학습보다 더 우수하다.
  • RLIP-ParSe는 특정 프로토콜에서 여러 미세 조정 방법보다 우수한 제로샷 HOI 탐지 성능을 달성한다.
  • RLIP는 기존 사전 학습과 비교하여 데이터가 희소할 때 특히 소샷 전이 학습을 개선하는 데 기여한다.
  • RQL 및 RPL를 통한 관계-라벨 노이즈 및 동의어에 대한 강건성이 향상되어 노이즈 감독 하에서의 안정성이 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.