QUICK REVIEW

[논문 리뷰] Distribution Alignment: A Unified Framework for Long-tail Visual Recognition

Songyang Zhang, Zeming Li|arXiv (Cornell University)|2021. 03. 30.

Domain Adaptation and Few-Shot Learning참고 문헌 46인용 수 24

한 줄 요약

이 논문은 분포 정렬을 통해 분류기 출력을 校정함으로써 성능을 햖थ하는 통합형 이단계 프레임워크인 DisAlign을 제안한다. 적응형 校정 함수와 일반화된 재가중 기법을 사용하여 예측을 균형 잡힌 클래스 사전 분포와 일치시켜, ImageNet-LT, iNaturalist, ADE20k, LVIS와 같은 장꼬리 기준 데이터셋에서 이미지 분류, 의미 세분화, 객체 검출 분야에서 최고 성능을 달성한다.

ABSTRACT

Despite the recent success of deep neural networks, it remains challenging to effectively model the long-tail class distribution in visual recognition tasks. To address this problem, we first investigate the performance bottleneck of the two-stage learning framework via ablative study. Motivated by our discovery, we propose a unified distribution alignment strategy for long-tail visual recognition. Specifically, we develop an adaptive calibration function that enables us to adjust the classification scores for each data point. We then introduce a generalized re-weight method in the two-stage learning to balance the class prior, which provides a flexible and unified solution to diverse scenarios in visual recognition tasks. We validate our method by extensive experiments on four tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Our approach achieves the state-of-the-art results across all four recognition tasks with a simple and unified framework. The code and models will be made publicly available at: https://github.com/Megvii-BaseDetection/DisAlign

연구 동기 및 목표

이중 단계 학습 프레임워크에서 편향된 결정 경계로 인해 발생하는 장꼬리 시각 인식의 성능 격차를 해소하기 위해.
불균형 데이터셋에서 학습된 딥 네트워크에서 꼬리 클래스 성능이 열 劣하는 근본 원인을 규명하기 위해.
광범위한 하이퍼파rameter 튜닝 없이도 분류 점수를 재보정할 수 있는 통합적이고 원리적인 방법을 개발하기 위해.
장꼬리 데이터 분포 하에서 다양한 시각 인식 작업—이미지 분류, 의미 세분화, 객체 검출, 인스턴스 세분화—에 효과적으로 적용 가능한 방법을 제공하기 위해.
클래스 사전을 통합한 유연하고 일반화된 재가중 전략을 제공하여 헤드, 바디, 꼬리 클래스 간의 예측을 균형 잡기 위해.

제안 방법

이중 단계 학습 프레임워크 제안: 먼저 비균형 데이터에서 표현 백본을 사전 학습하고, 이후 분포 정렬을 사용해 분류기 헤드를 미세 조정한다.
입력에 따라 달라지는 가중치와 마진을 적용하는 적응형 校정 함수 설계로, 신뢰도를 고려한 분포 정렬을 수행한다.
균형 잡힌 클래스 사전 분포를 모델링하고 클래스 빈도에 따라 손실 가중치를 동적으로 조정하는 일반화된 재가중 메커니즘 도입.
헤드 클래스에 대한 편향을 줄이기 위해 예측 클래스 분포를 균형 잡힌 예측을 선호하는 기준 분포와 일치시킨다.
다양한 모델과 백본 아키텍처에 적용 가능한 경량형 플러그인 컴포넌트로 분포 정렬 모듈을 통합한다.
일부 실험에서는 코사인 분류기 헤드를 사용해 희귀 클래스에서의 일반화 성능 향상과 과적합 감소를 추가로 확보한다.

Figure 1 : Per-class performance of the two-stage learning baseline and our empirical classification bound on ImageNet-LT val split. Two methods share the same representation while our bound setting retrains the classifier head with the balanced full dataset.

실험 결과

연구 질문

RQ1좋은 특징 표현을 가진 모델임에도 불구하고 이중 단계 장꼬리 인식에서 이상치 모델과 기준 모델 간의 성능 격차는 무엇이 원인인가?
RQ2특수 작업 튜닝 없이도 통합적이고 원리적인 전략으로 분포 정렬을 적용해 다양한 시각 인식 작업에서 성능 향상을 이룰 수 있는가?
RQ3분류 점수의 적응형 校정이 장꼬리 설정에서 예측 편향에 어떤 영향을 미치는가?
RQ4클래스 사전에 기반한 일반화된 재가중 기법이 꼬리 및 바디 클래스에서의 일반화 성능 향상에 어느 정도 기여하는가?
RQ5제안된 방법은 희귀 및 장꼬리 카테고리에서 정확도를 크게 향상시키면서도 헤드 클래스 성능을 유지하는가?

주요 결과

ImageNet-LT에서 DisAlign은 ResNet-50 기준 32.4%의 Top-1 정확도를 기록하며 이전 SOTA보다 2.5%p 향상되었다.
iNaturalist에서 DisAlign은 기준 모델 대비 3.1%p 향상된 41.7%의 Top-1 정확도를 달성했으며, 특히 꼬리 클래스에서 뚜렷한 성능 향상을 보였다.
ADE20k 의미 세분화에서 DisAlign은 ResNeSt-101 기준 mIoU를 2.3점 향상시켜 47.8에 도달했으며, 새로운 SOTA를 수립했다.
LVIS 객체 검출에서 DisAlign은 ResNeXt-101 기준 33.7%의 AP를 기록하며 기준 모델 대비 3.0%p 향상되었고, 희귀 카테고리에서 뚜렷한 향상이 있었다.
LVIS 인스턴스 세분화에서 DisAlign은 ResNeXt-101 기준 마스크 AP를 27.3%에서 29.7%로 향상시켜 꼬리 클래스에서 강력한 성능 향상을 보였다.
절단 실험 결과, 적응형 校정 및 일반화된 재가중 구성 요소가 필수적임을 확인했으며, 두 요소 모두 성능 향상에 기여했다.

Figure 2 : Empirical analysis of the performance bottleneck. Left : Baseline vs. ideal performance for representations learned with different sampling strategy. Right : Comparison of prior arts and ideal performance for the classifier head calibration. Cls-Bound : ideal performance bound. IB : insta

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.