QUICK REVIEW

[논문 리뷰] Robust Bi-Tempered Logistic Loss Based on Bregman Divergences

Ehsan Amid, Manfred K. Warmuth|arXiv (Cornell University)|2019. 06. 08.

Statistical Mechanics and Entropy참고 문헌 18인용 수 28

한 줄 요약

이 논문은 Bregman 발산을 기반으로 한 강건한 비온도 로지스틱 손실을 제안한다. 이는 표준 소프트맥스와 로그 손실을 두 온도 매개변수를 사용한 온도 조정된 형태로 대체한다: 낮은 온도를 로그 손실에 적용하여 외곽치에 대해 유한성을 확보하고, 높은 온도를 지수 함수에 적용하여 더 두꺼운 꼬리 확률 분포를 유도하여 잘못 레이블된 예제를 더 잘 다루도록 한다. 이 방법은 다양한 벤치마크에서 레이블 노이즈에 대해 뛰어난 강건성을 보이며, 노이즈가 없는 환경에서도 표준 로그 손실을 능가한다.

ABSTRACT

We introduce a temperature into the exponential function and replace the softmax output layer of neural nets by a high temperature generalization. Similarly, the logarithm in the log loss we use for training is replaced by a low temperature logarithm. By tuning the two temperatures we create loss functions that are non-convex already in the single layer case. When replacing the last layer of the neural nets by our bi-temperature generalization of logistic loss, the training becomes more robust to noise. We visualize the effect of tuning the two temperatures in a simple setting and show the efficacy of our method on large data sets. Our methodology is based on Bregman divergences and is superior to a related two-temperature method using the Tsallis divergence.

연구 동기 및 목표

딥 러닝에서 표준 로그 손실의 레이블 노이즈와 큰 마진 외곽치에 대한 민감성 문제를 해결하기 위해.
표준 교차 엔트로피 학습에서 볼록성과 가벼운 꼬리 확률 분포의 한계를 극복하기 위해.
노이즈 있는 학습 데이터 하에서 적절성과 일반화 능력을 유지하는 비볼록이지만 강건한 손실 함수를 개발하기 위해.
온도 조정된 로그 및 지수 함수에 대해 두 개의 별개 온도를 조정하면 모델의 강건성과 정확도가 향상됨을 입증하기 위해.
기존의 Tsallis 발산 기반 이중온도 방법보다 이론적으로 탄탄하고 적절한 손실 함수를 제공하기 위해.

제안 방법

표현식 $\log_{t_1}(x) = \frac{1}{1-t_1}(x^{1-t_1} - 1)$ 를 사용한 온도 조정된 로그 함수를 도입한다. $t_1 \in [0,1)$ 에 대해 정의되며, 아래로 유한하고 외곽치에 대한 강건성을 제공한다.
표현식 $\exp_{t_2}(x) = \left[1 + (1-t_2)x\right]_+^{1/(1-t_2)}$ 를 사용한 온도 조정된 지수 함수를 정의한다. $t_2 > 1$ 에 대해 정의되며, 결정 경계 근처의 잘못 레이블된 예제를 더 잘 다룰 수 있도록 두꺼운 꼬리 확률 분포를 생성한다.
진짜 레이블과 온도 조정된 소프트맥스 출력 사이의 Bregman 발산을 사용해 이중온도 손실을 구성한다. 로그 및 지수 성분에 대해 각각 다른 온도 $t_1$ 과 $t_2$ 를 사용한다.
Bregman 발산을 사용함으로써 손실가 적절성(즉, 최적 예측이 진짜 레이블과 일치함)을 유지한다. 이는 이전의 Tsallis 기반 방법과 달리 적절성을 확보한다.
이중 단계 학습 전략을 사용한다: 첫 번째 단계에서는 $t_1 \in [0.5,1)$ 과 $t_2 \in (1.0,4.0]$ 의 그리드를 통해 최적의 온도 조합을 탐색하고, 두 번째 단계에서는 최고 성능를 보인 조합을 사용해 표준 데이터셋에서 학습한다.
표준 딥 러닝 파ip라인(예: 모멘타임을 사용한 SGD, 학습률 감소)을 사용하지만, 최종 레이어의 손실을 이중온도 변형으로 교체한다.

실험 결과

연구 질문

RQ1온도 조정된 로그 및 지수 함수를 기반으로 한 비볼록 손실 함수가 딥 네ural 네트워크에서 레이블 노이즈에 대해 강건성을 향상시킬 수 있는가?
RQ2온도 조정된 지수 함수에 더 높은 온도를 도입하면(두꺼운 꼬리 확률 분포를 유도함) 결정 경계 근처의 잘못 레이블된 예제에 대한 과적합을 줄일 수 있는가?
RQ3온도 조정된 로그 함수에 낮은 온도를 도입하면(유한한 손실을 보장함) 학습 중 큰 마진 외곽치의 영향을 줄일 수 있는가?
RQ4Bregman 발산 기반 이중온도 손실은 Tsallis 발산 기반 기존의 이중온도 방법보다 적절성과 성능 측면에서 열등한가?
RQ5이중온도 손실은 레이블 노이즈가 없는 경우에도 청소된 테스트 세트에서 일반화 성능을 향상시키는가?

주요 결과

50%의 레이블 노이즈가 있는 MNIST에서, 이중온도 손실(0.5,4.0)은 97.69%의 top-1 정확도를 기록했고, 동일 조건에서 표준 로그 손실은 96.13%를 기록했다.
50%의 레이블 노이즈가 있는 CIFAR-100에서, 이중온도 손실(0.8,1.2)은 57.80%의 top-1 정확도를 기록했고, 표준 로그 손실은 52.96%를 기록했다.
ImageNet-2012에서, 이중온도 손실은 ResNet-18에 대해 0.285% 향상(71.618% 대 71.333%)을 기록했고, ResNet-50에 대해서는 0.416% 향상(76.748% 대 76.332%)을 기록했다.
이중온도 손실은 레이블 노이즈에 대한 과적합을 지연시키고 감소시켰으며, 로그 손실 대비 학습 에포크 동안 테스트 정확도의 분산이 유의미하게 낮았다.
노이즈가 없는 설정(예: CIFAR-100)에서도 이중온도 손실은 표준 로그 손실보다 높은 테스트 정확도(75.30% 대 74.03%)를 기록했으며, 이는 레이블 노이즈에 대한 강건성 외에도 일반화 성능 향상의 이점을 보여준다.
최적의 온도 조합을 선택할 경우, 다양한 데이터셋과 아키텍처에서 일관된 성능 향상이 이루어지며, 하이퍼파ram터 선택에 대해 강건함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.