[논문 리뷰] Unbiased Scene Graph Generation from Biased Training
이 연구는 맥락 편향을 제거하면서 유용한 좋은 편향을 보존하기 위해 총 직접 효과(TDE)를 계산하여 인과 추론 기반 프레임워크로 시각 장면 그래프 생성(SGG) 예측의 편향을 줄이고, 모델에 의존하지 않는 적용 가능성을 입증하며 Visual Genome 벤치마크에서 상당한 향상을 보여준다.
Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse "human walk on / sit on / lay on beach" into "human on beach". Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., "person read book" rather than "eat") and bad long-tailed bias (e.g., "near" dominating "behind / in front of"). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect (TDE) as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.
연구 동기 및 목표
- SGG에서 장해를 초래하는 장도사(롱테일) 및 언어 편향으로 인한 관계 예측의 편향 완화 필요성에 대한 동기 부여.
- 좋은 맥락 사전 정보와 해로운 편향을 구분하는 인과 추론 프레임워크를 제안.
- 최종 편향 없는 프레딕트 점수로서 총 직접 효과(TDE) 도입.
- TDE를 활용한 예측이 다수의 SGG 모델에서 최첨단 debiasing 방법들보다 우수하다는 점 시연.
제안 방법
- 콘텐츠(X), 맥락(Z), 장면(I)이 predicate Y에 미치는 영향을 나타내는 SGG를 위한 일반적인 인과 그래프를 구성.
- 인과 그래프와 모델 매개변수를 사용한 전통적인 편향된 학습 수행.
- Y_x(u) - Y_{\\bar{x},z}(u)로 총 직접 효과(TDE)를 정의하고 계산하여 편향 없는 예측을 얻음.
- TDE가 모델에 구애받지 않으며 기존 SGG 아키텍처에 추가 매개변수 없이 통합될 수 있음을 보여줌.
- bias-sensitive 지표(mean Recall)와 Sentence-to-Graph Retrieval(S2GR)을 포함하는 Scene Graph Diagnosis 툴킷 도입.
실험 결과
연구 질문
- RQ1편향된 맥락의 영향을 SGG 예측에서 분리하고 제거하면서 유용한 priors를 보존하는 방법은 무엇인가?
- RQ2대체사고(counterfactual) 기반 TDE 예측기가 서로 다른 모델 간에 프레딕트 수준 및 그래프 수준의 SGG 성능을 향상시키는가?
- RQ3좋은 편향과 나쁜 편향을 구분하지 않는 debiasing 방법이 덜 효과적이거나 미지의 관계에 일반화되지 않는가?
- RQ4모델에 구애받지 않는 TDE 접근이 SGG에 의존하는 다운스트림 작업(VQA, 캡션 생성 등)을 더 구별 가능한 관계를 제공함으로써 개선할 수 있는가?
주요 결과
- TDE가 다수의 모델과 융합 전략에서 편향된 베이스라인에 비해 프레딕트 수준 예측을 크게 향상시킨다.
- TDE가 장편향 효과를 감소시키며, 성능의 분포가 머리(predicate)만으로 좌우되지 않는 향상을 보인다.
- TE(총 효과)와 NIE는 제한된 이득을 보이는 반면, TDE는 RR 및 ZSRR 작업에서 mean Recall@K의 재현율을 일관되게 향상시킨다.
- S2GR은 TDE가 더 구별 가능하고 의미적으로 정보가 풍부한 관계를 제공하여 Sentence-to-Graph Retrieval을 개선함을 보여준다.
- Scene Graph Diagnosis 툴킷은 기존 모델의 심각한 편향을 검증하고 Visual Genome 벤치마크 전반에서 TDE의 효과를 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.