QUICK REVIEW

[論文レビュー] Deep Networks With Large Output Spaces

Sudheendra Vijayanarasimhan, Jonathon Shlens|arXiv (Cornell University)|Dec 23, 2014

Advanced Image and Video Retrieval Techniques参考文献 10被引用数 31

ひとこと要約

この論文は、数百万の出力クラスをもつ深層ニューラルネットワークにおける学習および推論の高速化を目的として、局所性に敏感なハッシュ（LSH）に基づく手法を提案している。最終分類層における計算コストの高いドット積を近似することで、特に動画識別のような高基数タスクにおいて、標準的なソフトマックスおよび階層的ソフトマックスよりも高速な収束と高い精度を達成している。

ABSTRACT

Deep neural networks have been extremely successful at various image, speech, video recognition tasks because of their ability to model deep structures within the data. However, they are still prohibitively expensive to train and apply for problems containing millions of classes in the output layer. Based on the observation that the key computation common to most neural network layers is a vector/matrix product, we propose a fast locality-sensitive hashing technique to approximate the actual dot product enabling us to scale up the training and inference to millions of output classes. We evaluate our technique on three diverse large-scale recognition tasks and show that our approach can train large-scale models at a faster rate (in terms of steps/total time) compared to baseline methods.

研究の動機と目的

数百万の出力クラスをもつ深層ネットワークの学習および推論における計算ボトルネックを解消すること。
画像分類、動画識別、レコメンデーションシステムなどの大規模認識タスクにおけるスケーラブルな深層学習を可能にすること。
最終分類層の時間計算量を顕著な精度損失なしに低減すること。
ハッシュを用いて深層ネットワークにおける行列-ベクトル積を近似する可能性を調査すること。
トップ-kハッシュが、学習速度およびモデル精度の観点で従来のソフトマックスおよび階層的ソフトマックスを上回ることを示すこと。

提案手法

最終層における入力活性化と出力重みの間のドット積のハッシュに基づく近似を提案する。
各出力重みベクトルに対してバイナリーハッシュコードを計算し、高速な照合を可能にするハッシュテーブルに格納する。
推論時、入力活性化のハッシュコードを計算し、ハッシュ類似度に基づいて最も近いトップ-k出力ノードを取得する。
取得したトップ-kノードでのみ正確なドット積を計算し、他のすべてのノードをゼロに設定することで計算量を削減する。
訓練時にも同様のハッシュ技術を適用し、トップ-kパラメータ更新による勾配更新の高速化を実現する。
全ソフトマックスをトップ-kで最も関連性の高い出力ノードのみを用いて近似するWTA（勝者1人）ソフトマックスの変種を用いる。

実験結果

リサーチクエスチョン

RQ1局所性に敏感なハッシュは、大規模な出力空間を持つ深層ネットワークの最終層におけるドット積の近似に有効に適用可能か？
RQ2提案手法のハッシュベースのアプローチは、標準的なソフトマックスおよび階層的ソフトマックスと比較して、学習速度およびモデル精度においてどのように差をつけるか？
RQ3動画識別や大規模画像分類のようなタスクに、この手法は数百万クラスの問題に対し効果的にスケーリング可能か？
RQ4ハッシュによるトップ-k近似は、いつ全ソフトマックスや階層的ソフトマックスを上回るか？
RQ5データセットの特徴のコンパクトさ（クラス内分散）が、ハッシュベースのアプローチの性能にどのように影響するか？

主な発見

スケープグラムデータセットにおいて、WTAソフトマックスモデルは処理した学習例が少ないにもかかわらず、階層的ソフトマックスよりも精度@50（16.5%）および精度@100（18.5%）が高かった。
スポーツ1M動画識別タスクにおいて、WTAモデルは標準ソフトマックスよりも1ステップあたり4倍速く学習が完了し、両基準よりも高い精度を達成した。
WTAモデルは標準ソフトマックスと比較してステップ時間は4倍低減されたが、より高いステップごとの計算量のため、階層的ソフトマックスより4倍遅かったが、最終的な精度ではそれを上回った。
スポーツ1Mデータセットでは、ImageNet-21Kと比較して特徴のクラス内分散が顕著に低く、これがトップ-k近似が動画データでよりうまく機能する理由を説明している。
ハッシュによるアプローチにより、必要なドット積の数をO(N)からO(K)に削減（K << N）することで、数百万クラスの大きなスケールのモデルの学習が可能になった。
特徴空間がコンパクト（クラス内分散が低い）場合、特に動画や順序データのような文脈では、近い近傍がより代表的となるため、このアプローチは特に有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。