QUICK REVIEW

[논문 리뷰] Asymmetric Loss For Multi-Label Classification

Emanuel Ben-Baruch, Tal Ridnik|arXiv (Cornell University)|2020. 09. 29.

Advanced Neural Network Applications참고 문헌 40인용 수 64

한 줄 요약

요약: 이 논문은 다중 라벨 분류에서 심한 음성–양성 불균형과 잘못 표기된 데이터를 다루기 위해 비대칭 집중(asymmetric focusing)과 비대칭 확률 이동(asymmetric probability shifting)을 결합한 Asymmetric Loss(ASL)를 제시하여 아키텍처를 변경하지 않고 주요 데이터셋에서 최첨단 mAP를 실현합니다. 또한 학습 중 비대칭을 동적으로 조정하는 적응적 스킴을 제공합니다.

ABSTRACT

In a typical multi-label setting, a picture contains on average few positive labels, and many negative ones. This positive-negative imbalance dominates the optimization process, and can lead to under-emphasizing gradients from positive labels during training, resulting in poor accuracy. In this paper, we introduce a novel asymmetric loss ("ASL"), which operates differently on positive and negative samples. The loss enables to dynamically down-weights and hard-thresholds easy negative samples, while also discarding possibly mislabeled samples. We demonstrate how ASL can balance the probabilities of different samples, and how this balancing is translated to better mAP scores. With ASL, we reach state-of-the-art results on multiple popular multi-label datasets: MS-COCO, Pascal-VOC, NUS-WIDE and Open Images. We also demonstrate ASL applicability for other tasks, such as single-label classification and object detection. ASL is effective, easy to implement, and does not increase the training time or complexity. Implementation is available at: https://github.com/Alibaba-MIIL/ASL.

연구 동기 및 목표

다중 라벨 이미지 분류에서 심각한 음성–양성 라벨 불균형 문제를 해결한다.
쉽게 되는 음수들을 다운-웨이트하고 매우 쉬운 음수를 제거하며 양성 그래디언트 신호를 보존하는 로스 함수를 개발한다.
학습 중 비대칭을 동적으로 조정하는 적응 메커니즘을 설계하여 하이퍼파라미터 튜닝을 단순화한다.
ASL이 아키텍처 변경 없이 주요 다중 라벨 벤치마크에서 최첨단 성능을 달성함을 보여준다.
다중 라벨 분류 이외의 관련 작업에도 ASL의 적용 가능성을 입증한다.

제안 방법

레이블-별 로짓 z_k 및 확률 p = sigmoid(z)로 이진 크로스 엔트로피/포컬-로스 프레임워크를 정의한다.
긍정 포커싱 파라미터 gamma_plus와 음수 포커싱 파라미터 gamma_minus를 분리하여 비대칭 포커싱을 도입한다.
음수 확률을 p_m = max(p - m, 0)으로 이동시켜 쉬운 음수에 대한 하드 임계 값을 가능하게 하는 비대칭 확률 이동을 도입한다.
ASL을 L_plus = (1 - p)^{gamma_plus} log(p) 및 L_minus = (p_m)^{gamma_minus} log(1 - p_m)으로 정식화한다.
양성 로스를 표준 CE로 유지하고 gamma_minus를 조정하여 비대칭을 만드는 옵션으로 gamma_plus를 0으로 설정할 수 있다.
오차 역전파 및 확률 분석을 제공하여 잘못 표기된 음수의 거부 및 샘플 기여의 균형과 같은 이점을 보인다.
Delta p_target를 목표로 하는 확률 격차 Delta p를 목표로 하여 gamma_minus <- gamma_minus + lambda(Delta p - Delta p_target)로 업데이트하는 적응적 비대칭 스킴을 제안한다.
두 가지 비대칭을 결합하면 단일 비대칭이나 정적 가중치 대비 더 나은 성능을 얻을 수 있음을 입증한다.

실험 결과

연구 질문

RQ1음성–양성 불균형을 다루는 비대칭 로스가 네트워크 구조를 바꾸지 않고 다중 라벨 분류 성능을 향상시키는가?
RQ2비대칭 포커싱과 확률 이동이 그래디언트 흐름 개선 및 잘못 표기된 음수에 대한 강건성에 어떻게 기여하는가?
RQ3ASL이 학습 중 비대칭을 동적으로 적응하여 하이퍼파라미터 튜닝을 단순화하면서 성능을 유지하거나 향상시키는가?
RQ4ASL이 여러 주요 다중 라벨 데이터셋과 백본에서 효과적이며 단일 라벨 분류 및 물체 탐지 등 관련 작업으로 확장되는가?

주요 결과

방법	mAP	CF1	OF1
CADM	82.3	77.0	79.6
ML-GCN	83.0	78.0	80.3
KSSNet	83.7	77.2	81.5
MS-CMA	83.8	78.4	81.0
MCAR	83.8	78.0	80.3
ASL (ResNet101)	85.0	80.3	82.3
ASL (TResNet-L)	86.6	81.4	81.8

ASL은 MS-COCO, Pascal-VOC, NUS-WIDE, Open Images에서 교차 엔트로피 및 포컬 로스보다 뛰어나 최첨단 결과를 달성한다.
MS-COCO에서 ResNet101를 사용하는 ASL은 85.0 mAP를 달성(CE 84.0 및 포컬 85.1과 대조), ASL with TResNet-L은 86.6 mAP(상위 1위)이다.
비대칭 포커싱과 확률 이동을 결합하면 가장 좋은 MS-COCO 결과(86.6 mAP)를 얻으며 단일 비대칭 또는 결합하지 않은 경우보다 우수하다.
적응적 비대칭 실험은 Delta p_target 설정으로 더 높은 mAP(최대 86.4)를 보였으며, 고정 ASL 변형은 일부 경우에서 더 높은 점수를 달성할 수 있다.
ASL은 다양한 백본(OFA-595, ResNet101, TResNet-L)에서 성능을 향상시키고, 더 나은 사전학습과 더 높은 입력 해상도(예: 448에서 640)로 이점을 얻는다.
ASL은 단일 라벨 분류 및 객체 탐지와 같은 관련 작업에서도 이점을 보이며 더 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.