[論文レビュー] From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification
sparsemax を導入します。softmax に似た活性化として疎な確率分布を生み出し、その性質と Jacobian を導出、凸な sparsemax loss を提案し、多ラベル分類と NLP における選択的注意の利点を実証します。
We propose sparsemax, a new activation function similar to the traditional softmax, but able to output sparse probabilities. After deriving its properties, we show how its Jacobian can be efficiently computed, enabling its use in a network trained with backpropagation. Then, we propose a new smooth and convex loss function which is the sparsemax analogue of the logistic loss. We reveal an unexpected connection between this new loss and the Huber classification loss. We obtain promising empirical results in multi-label classification problems and in attention-based neural networks for natural language inference. For the latter, we achieve a similar performance as the traditional softmax, but with a selective, more compact, attention focus.
研究の動機と目的
- attention および multi-label コンテキストにおける疎な確率出力の必要性を動機づける。
- sparsemax 変換を形式化し、その閉形式解と主要な特性を導出する。
- 凸かつ微分可能な sparsemax loss を導入し、ロジスティック損失に類似したものとして定義する。
- sparsemax の多ラベル分類ベンチマークおよび自然言語推論の attention 機構における有効性を示す。
提案手法
- sparsemax をベクトルを確率単位円盤へ射影するユークリッド射影として定義する。
- sparsemax の閉形式解と tau(z) の閾値付けに基づく O(K) 評価アルゴリズムを提供する。
- sparsemax のヤコビ行列を導出し、バックプロパゲーションのための効率的なベクトル-ヤコビ積を示す。
- sparsemax loss を convex で微分可能な logistic loss の類比として導入し、勾配は -q + sparsemax(z)。
- loss を multi-label classification および sparse label proportions に一般化する。
- attention mechanism で softmax を置換し、自然言語推論の neural attention に sparsemax を適用する。
実験結果
リサーチクエスチョン
- RQ1sparsemax は softmax の有用な特性を保ちながら疎な事後分布を出力できるのか?
- RQ2sparsemax と組み合わせて訓練するための convex かつ微分可能な loss をどのように構築するのか?
- RQ3sparsemax ベースのモデルは softmax ベースの counterparts と比較して、多ラベル分類および attention ベースの NLP タスクで競争力があるのか?
- RQ4実務的な計算特性(例:ヤコビ行列、バックプロパゲーションの効率性)はどうなるのか?
主な発見
- sparsemax は simplex への射影により疎な確率分布を出力でき、softmax は全サポートを持つのに対し疎性を持つ。
- sparsemax 変換は部分的に直線的で、閉形式解を持ち、O(K) 時間で計算できる。
- sparsemax のヤコビ行列は softmax に類似した効率的なバックプロパゲーションを可能にし、サポートが小さい場合は更新が速くなる可能性がある。
- 提案された sparsemax loss は convex で微分可能であり、2値ケースでは Huber loss に関連した形に縮約される。
- ラベルの割合推定および多ラベル分類において、sparsemax は特に信号強度が増すにつれて競争力のあるまたは優れた性能を示す。
- NLP の attention 実験では、SparseAttention は SoftAttention と同等の性能を達成し、非ゼロで選択的な注意が焦点化される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。