QUICK REVIEW

[논문 리뷰] Regularizing Neural Networks by Penalizing Confident Output Distributions

Gabriel Pereyra, George Tucker|arXiv (Cornell University)|2017. 01. 23.

Adversarial Robustness in Machine Learning인용 수 403

한 줄 요약

이 논문은 낮은 엔트로피 출력 분포를 처벌하는 신뢰도 페널티를 도입하고 이를 label smoothing과 연결하며, 하이퍼파라미터를 변경하지 않고도 다수의 벤치마크에서 일반화 성능을 향상시킨다.

ABSTRACT

We systematically explore regularizing neural networks by penalizing low entropy output distributions. We show that penalizing low entropy output distributions, which has been shown to improve exploration in reinforcement learning, acts as a strong regularizer in supervised learning. Furthermore, we connect a maximum entropy based confidence penalty to label smoothing through the direction of the KL divergence. We exhaustively evaluate the proposed confidence penalty and label smoothing on 6 common benchmarks: image classification (MNIST and Cifar-10), language modeling (Penn Treebank), machine translation (WMT'14 English-to-German), and speech recognition (TIMIT and WSJ). We find that both label smoothing and the confidence penalty improve state-of-the-art models across benchmarks without modifying existing hyperparameters, suggesting the wide applicability of these regularizers.

연구 동기 및 목표

가중치- 및 활성화 기반 방법의 보완으로 출력 기반 규제화를 동기화한다.
대형 신경망에서 최대 엔트로피 기반 신뢰 페널티를 평가한다.
KL 발산을 통해 신뢰 페널티를 label smoothing과 연관지어진다.
하이퍼파라미터 튜닝 없이 다양한 벤치마크에 적용 가능성을 입증한다.

제안 방법

손실을 음의 로그 가능도 항과 모델의 출력 분포에 대한 beta 가중 엔트로피 페널티로 정의한다.
페널티를 구현하기 위해 로짓에 대한 엔트로피 기울기를 계산한다.
수렴에 가까워질수록 정규화를 강화하기 위해 페널티를 어닐링하거나 힌지 기반 엔트로피 임계치를 적용한다.
KL 발산 방향을 반대로 해서 엔트로피 페널티가 label smoothing과 관련이 있음을 보인다.
다양한 데이터셋과 모델 유형에 대해 신뢰 페널티와 label smoothing을 함께 평가한다.

실험 결과

연구 질문

RQ1감소하는 엔트로피 출력 분포를 페널링하는 것이 감독 학습에서 일반화 성능을 향상시키는가?
RQ2다양한 작업에서 신뢰 페널티가 label smoothing과 어떻게 비교되는가?
RQ3이러한 출력 규제자가 하이퍼파라미터를 바꾸지 않고도 최첨단 모델의 성능을 개선할 수 있는가?
RQ4최대 엔트로피 페널티와 기존 규제인 label smoothing 간의 연결고리는 무엇인가?

주요 결과

신뢰 페널티와 label smoothing은 MNIST, CIFAR-10, Penn Treebank, WMT’14 English–German, TIMIT, 그리고 WSJ에서 최첨단 모델의 성능을 향상시킨다.
언어 모델링 실험에서 신뢰 페널티가 상당한 perplexity 개선을 달성하는데, 예를 들어 PTB에서 기준선 대비 3.7 perplexity 포인트의 개선을 보인다.
기계 번역에서 label smoothing이 신뢰 페널티보다 BLEU에서 약간 더 우수하며, 두 방법 모두 dropout을 사용하지 않을 때 약 1 BLEU 포인트의 이점을 제공한다.
WSJ에서 unigram label smoothing이 테스트된 규제들 중 가장 좋은 WER 개선(11.0 ± 0.35)을 보이며, 신뢰 페널티는 검증에서 WER을 12.7로 개선하고 기준선은 17.2이다.
다양한 작업에서 기존 하이퍼파라미터를 수정하지 않고도 이러한 출력 규제들이 성능을 향상시킨다.
그래디언트 노름은 dropout보다 label smoothing 및 신뢰 페널티에서 더 작아지는 경향이 있어 더 부드럽고 일반화가 잘 되는 출력 분포를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.