Skip to main content
QUICK REVIEW

[논문 리뷰] From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification

André F. T. Martins, Ramón Fernández Astudillo|arXiv (Cornell University)|2016. 02. 05.
Domain Adaptation and Few-Shot Learning참고 문헌 35인용 수 262
한 줄 요약

스파스맥(sparsemax)을 소개합니다. 이는 확률 분포를 희소하게 만드는 소프트맥스와 유사한 활성화 함수이며, 그 특성과 야곰(제이콥) 행렬을 도출하고, 볼록한 스파스맥스 손실을 제안하며, 다중 라벨 분류와 NLP의 선택적 주의(attention)에서 이점을 보여줍니다.

ABSTRACT

We propose sparsemax, a new activation function similar to the traditional softmax, but able to output sparse probabilities. After deriving its properties, we show how its Jacobian can be efficiently computed, enabling its use in a network trained with backpropagation. Then, we propose a new smooth and convex loss function which is the sparsemax analogue of the logistic loss. We reveal an unexpected connection between this new loss and the Huber classification loss. We obtain promising empirical results in multi-label classification problems and in attention-based neural networks for natural language inference. For the latter, we achieve a similar performance as the traditional softmax, but with a selective, more compact, attention focus.

연구 동기 및 목표

  • Attention 및 다중 라벨 컨텍스트에서 희소 확률 출력의 필요성을 동기 부여합니다.
  • 스파스맥스 변환을 형식화하고 닫힌 형식 해와 주요 특성을 도출합니다.
  • 로지스틱 손실에 비견되는 볼록하고 미분 가능한 스파스맥스 기반 손실 함수를 도입합니다.
  • 다중 라벨 분류 벤치마크와 자연어 추론을 위한 주의 메커니즘에서 스파스맥스의 효능을 입증합니다.

제안 방법

  • 스파스맥스를 벡터를 확률 단위로 프로젝션하는 유클리드 프로젝션으로 정의합니다.
  • 스파스맥스의 닫힌 형식 해와 임계값 tau(z)를 기반으로 O(K) 평가 알고리즘을 제공합니다.
  • 스파스맥스의 야코비안(Jacobian)을 도출하고 역전파를 위한 벡터-야코비안 곱을 효율적으로 보장합니다.
  • 스파스맥스 손실을 로지스틱 손실의 볼록하고 미분 가능한 유사체로 도입하고 기울기를 -q + sparsemax(z)로 제시합니다.
  • 다중 라벨 분류에 손실을 일반화하고 희소한 라벨 비율에 대해 확장합니다.
  • 자연어 추론을 위한 주의 메커니즘에서 소프트맥스(s oftmax)를 대체하여 신경 주의(attention)를 적용합니다.

실험 결과

연구 질문

  • RQ1스파스맥스가 소프트맥스의 유용한 특성을 보존하면서 희소한 후방 분포를 만들 수 있는가?
  • RQ2희소맥스와 함께 학습을 위한 볼록하고 미분 가능한 손실을 어떻게 구성할 수 있는가?
  • RQ3스파스맥스 기반 모델이 소프트맥스 기반 대응물과 비교해 다중 라벨 분류 및 주의 기반 NLP 작업에서 경쟁력 있는 성능을 보이는가?
  • RQ4실제에서 스파스맥스의 계산 특성(예: 야코비안, 역전파 효율성)은 어떤가?

주요 결과

  • 스파스맥스는 심플렉스에 프로젝션하여 확률 분포를 희소하게 출력할 수 있으며, 소프트맥스는 전체 지원을 갖는 반면 차이가 있다.
  • 스파스맥스 변환은 조각별로 선형이며 닫힌 형식 해를 가지며 O(K) 시간에 계산될 수 있다.
  • 스파스맥스의 야코비안은 소프트맥스와 유사한 효율적인 역전파를 가능하게 하며, 지원이 작을 때 업데이트가 더 빨라질 수 있다.
  • 제안된 스파스맥스 손실은 볼록하고 미분 가능하며 이진 경우 허버(Huber) 손실과 관련된 형식으로 축소된다.
  • 레이블 비율 추정 및 다중 라벨 분류에서 스파스맥스는 특히 신호 강도가 증가할 때 경쟁력 있거나 우수한 성능을 보인다.
  • NLP 주의 실험에서 SparseAttention은 SoftAttention과 비슷한 성능을 달성하며 비제로의 선택적 주의가 집중된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.