[논문 리뷰] Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect
이 논문은 SGD 모멘텀을 긴 꼬리 분류에서의 혼란요인(confounder)으로 식별하는 인과 프레임워크를 구축하고, 유익한 매개를 유지하면서 해로운 백도어 편향(backdoor bias)을 제거하기 위한 총 직접 효과(TDE) 추론을 포함하는 한 단계의 비혼합(de-confounded) 학습을 제안한다.
As the class size grows, maintaining a balanced dataset across many classes is challenging because the data are long-tailed in nature; it is even impossible when the sample-of-interest co-exists with each other in one collectable unit, e.g., multiple visual instances in one image. Therefore, long-tailed classification is the key to deep learning at scale. However, existing methods are mainly based on re-weighting/re-sampling heuristics that lack a fundamental theory. In this paper, we establish a causal inference framework, which not only unravels the whys of previous methods, but also derives a new principled solution. Specifically, our theory shows that the SGD momentum is essentially a confounder in long-tailed classification. On one hand, it has a harmful causal effect that misleads the tail prediction biased towards the head. On the other hand, its induced mediation also benefits the representation learning and head prediction. Our framework elegantly disentangles the paradoxical effects of the momentum, by pursuing the direct causal effect caused by an input sample. In particular, we use causal intervention in training, and counterfactual reasoning in inference, to remove the "bad" while keep the "good". We achieve new state-of-the-arts on three long-tailed visual recognition benchmarks: Long-tailed CIFAR-10/-100, ImageNet-LT for image classification and LVIS for instance segmentation.
연구 동기 및 목표
- 모멘텀 주도 혼란으로 인해 긴 꼬리 분류 방법이 일반화에 한계를 보이는 이유를 설명한다.
- 유익한 매개를 보존하고 해로운 혼란 효과를 제거하는 원칙적이고 인과 학습 프레임워크를 제시한다.
- 비혼합 학습과 TDE 추론에 기반한 재학습이 필요 없는 한 단계의 긴 꼬리 인식 솔루션을 제공한다.
제안 방법
- 네 변 수 인과 그래프(M, X, D, Y)에서 모멘텀을 혼란요인 M으로 모델링한다.
- backdoor 보정을 적용해 P(Y|do(X))를 추정하는 비혼합 학습 objective를 도출한다.
- 비혼합 로짓의 역확률 가중치를 근사하기 위해 에너지 기반의 다중 헤드 가중화 스킴을 사용한다.
- X의 직접 효과를 보존하고 간접 효과를 D를 통해 빼는 반사실적 차이로 총irect 효과(TDE) Y|do(X)를 계산한다.
- 추론 단계에서 직값 X0(무 입력)와 함께 TDE를 적용해 직접 효과를 분리하고, 배경 클래스가 있는 작업을 위한 배경 배제 추론을 도입한다.
실험 결과
연구 질문
- RQ1SGD 모멘텀은 긴 꼬리 데이터셋에서 꼬리 클래스 예측에 편향을 주는 혼란요인으로 작용할 수 있는가?
- RQ2모멘텀으로 도입된 매개와 백도어 경로에서 직접 인과 효과 X→Y를 매개 및 경로들로부터 어떻게 분리할 수 있는가?
- RQ3한 단계의 비혼합 학습과 TDE 추론이 기존의 두 단계 재샘플링 방법보다 긴 꼬리 비전 벤치마크에서 더 우수한가?
- RQ4제안된 방법이 정규화된 분류기(예: 코사인)와 어떤 관련이 있으며 긴 꼬리 설정에서 이를 정당화하는가?
주요 결과
- 긴 꼬리 CIFAR-10/100 및 ImageNet-LT에서 다양한 설정에서 새로운 최첨단 성능을 달성한다.
- 인스턴스 분할 및 객체 탐지 모두에서 LVIS에 대해 이전 수상자 대비 강력한 이득을 보인다.
- 비혼합 학습과 TDE 추론이 이중 단계 재샘플링 방법보다 우수하거나 효과를 설명할 수 있음을 보인다.
- 헤드 편향 특성 방향 D를 통한 매개가 성능에 기여하는 반면, M을 통한 백도어 혼란이 꼬리 예측을 저하시켜 TDE로 이를 완화한다는 것을 보여준다.
- 정규화된 분류기(코사인)와의 이론적 연결을 제공하고 Grad-CAM을 통한 판별 영역에 대한 집중이 향상됨을 설명한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.