Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Softmax with Cross-Entropy: Neural Network Classifier as Mutual Information Estimator

Zhenyue Qin, Dongwoo Kim|arXiv (Cornell University)|2019. 11. 25.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 37
한 줄 요약

본 논문은 softmax 크로스 엔트로피로 학습하는 것이 입력과 레이블 간의 상호정보(mutual information)를 최대화하며(레이블 분포가 균일할 때), 신경망 분류기를 상호정보 추정기로 재정의하고, 정보를 많이 담은 입력 영역을 찾기 위한 infoCAM을 도입한다.

ABSTRACT

Mutual information is widely applied to learn latent representations of observations, whilst its implication in classification neural networks remain to be better explained. We show that optimising the parameters of classification neural networks with softmax cross-entropy is equivalent to maximising the mutual information between inputs and labels under the balanced data assumption. Through experiments on synthetic and real datasets, we show that softmax cross-entropy can estimate mutual information approximately. When applied to image classification, this relation helps approximate the point-wise mutual information between an input image and a label without modifying the network structure. To this end, we propose infoCAM, informative class activation map, which highlights regions of the input image that are the most relevant to a given label based on differences in information. The activation map helps localise the target object in an input image. Through experiments on the semi-supervised object localisation task with two real-world datasets, we evaluate the effectiveness of our information-theoretic approach.

연구 동기 및 목표

  • 정보 이론적 관점에서 softmax 크로스 엔트로피를 상호정보와의 관계를 통해 신경망 분류기를 재해석한다.
  • 분류를 위한 입력의 특징 정보도를 평가하는 데 사용할 수 있는 실용적인 MI-추정기 관점을 개발한다.
  • MI 추정을 보존하면서 불균형 데이터셋을 처리하기 위한 확률 보정 소프트맥스(PC-softmax)를 도입한다.
  • 이미지에서 레이블에 가장 informative한 영역을 찾기 위한 Informative Class Activation Map(infoCAM)을 제안하고 검증한다.

제안 방법

  • softmax와 교차 엔트로피를 상호정보에 대한 변분 bound와 관계시키고 균일한 레이블 분포 하에서 동등성을 보인다.
  • uniform-label 가정을 완화하기 위해 PC-softmax를 도입하고 신경망과의 MI 일관성을 증명한다.
  • 지역-레이블 정보도를 정량화하기 위해 점별 상호정보(PMI) 차이를 정의하고 계산한다.
  • PMI 차이를 이미지 영역에 걸쳐 분해하여 WSOL을 위한 정보가 있는 영역을 식별함으로써 infoCAM을 도출한다.
  • 합성 데이터와 real 데이터셋(MNIST, CUB-200-2011)에서 MI 추정기(softmax, MINE, MC)를 경험적으로 비교하고 분류 성능을 평가한다.
  • 다수의 네트워크와 데이터셋에서 전통 CAM에 비해 WSOL에서 infoCAM이 일관되게 성능을 향상시킨다.

실험 결과

연구 질문

  • RQ1softmax를 갖는 교차 엔트로피가 입력과 레이블 간의 상호정보를 최대화하는가, 어떤 조건에서 그런가?
  • RQ2PC-softmax가 불균형한 데이터에서 일관된 MI 추정을 제공하고 분류 성능을 향상시키는가?
  • RQ3정보 이론적 활성화 맵(infoCAM)이 WSOL 작업에서 전통적인 CAM보다 레이블에 대한 정보를 가진 영역을 더 잘 로컬라이즈하는가?

주요 결과

  • 균일한 레이블 분포 하에서 교차 엔트로피의 최저치는 입력과 레이블 간의 상호정보와 일치한다(상수까지).
  • PC-softmax는 경쟁력 있는 MI 추정치를 제공하고 불균형 데이터에서 클래스당 평균 정확도를 향상시킨다.
  • MNIST와 CUB-200-2011에서 PC-softmax는 불균형 데이터에서 softmax보다 평균 클래스당 정확도를 향상시키고, 균형 케이스에서는 정확도가 유사하다.
  • InfoCAM은 여러 네트워크와 데이터셋에서 약하게 지도된 객체 로컬라이제이션에 대해 CAM을 꾸준히 능가한다.
  • InfoCAM+와 ADL은 지역 기반 PMI 차이가 로컬라이제이션을 가이드함으로써 WSOL 성능을 추가로 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.