QUICK REVIEW

[論文レビュー] Hash Layers For Large Sparse Models

Stephen Roller, Sainbayar Sukhbaatar|arXiv (Cornell University)|Jun 8, 2021

Topic Modeling参考文献 36被引用数 48

ひとこと要約

Hash Layers は事前に計算されたハッシュを介してトークンを固定のエキスパート FFN へルーティングし、ルーティングパラメータや追加目的なしで Switch Transformers や BASE Layers と競合するまたはそれ以上の perplexity を達成します。

ABSTRACT

We investigate the training of sparse layers that use different parameters for different inputs based on hashing in large Transformer models. Specifically, we modify the feedforward layer to hash to different sets of weights depending on the current token, over all tokens in the sequence. We show that this procedure either outperforms or is competitive with learning-to-route mixture-of-expert methods such as Switch Transformers and BASE Layers, while requiring no routing parameters or extra terms in the objective function such as a load balancing loss, and no sophisticated assignment algorithm. We study the performance of different hashing techniques, hash sizes and input features, and show that balanced and random hashes focused on the most local features work best, compared to either learning clusters or using longer-range context. We show our approach works well both on large language modeling and dialogue tasks, and on downstream fine-tuning tasks.

研究の動機と目的

Transformers における学習可能なルーティングパラメータを用いない、拡張可能なスパースルーティングの動機付け。
トークンを固定のエキスパートモジュールにマップするハッシュベースのルーティング機構を提案。
言語モデルと対話タスク全体でハッシュ戦略とマルチハッシュ拡張を評価。
Switch Transformers および BASE Layers と比較した性能と効率を評価。
ハッシュの選択がトレーニングダイナミクスと下流のファインチューニングに与える影響を分析。

提案手法

Transformers の FFN を MoE スタイルのエキスパート FFN の集合に置換し、固定のハッシュベースルーティング関数を介してアクセス。
学習済みのルーティングパラメータなしで事前にハッシュ関数を固定し、トークンを各トークンにつき単一のエキスパートへルーティング。
複数のハッシュ戦略（Random、Balanced、Bigram、Previous Token、Position-based、Oracle/Future-based、Clustering、Dispersed）を探索し、性能への影響を評価。
固定計算予算の下でサブパラメータを選択し、それらの出力を連結する複数のハッシュ関数を組み合わせて MultiHash Layers を導入。
Pushshift Reddit、RoBERTa+cc100en、Wikitext-103、BST対話タスクで実験を実施し、密デンシティベースライン、Switch Transformers、BASE Layers と比較。
ハッシュ関数の選択、レイヤー位置、マルチハッシュの効果に関するアブレーションを提供。

実験結果

リサーチクエスチョン

RQ1固定のハッシュベースルーティング方式で、スパースTransformerモデルの学習可能なルーティングに匹敵する性能を達成できるか？
RQ2どのハッシュ戦略（ランダム、バランス、トークンベース、n-gram、クラスタリングベース、オラクルベース）が perplexity とトレーニング効率の最良のトレードオフを生むか？
RQ3後半の Transformer レイヤーにハッシュベースルーティングを配置することは、前半のレイヤーより性能を向上させるか？
RQ4固定計算予算でのマルチハッシュルーティングがモデル性能に与える影響は？
RQ5Hash Layers は精度とトレーニング/更新効率の点で BASE Layers と比べてどうか？

主な発見

Model	Configuration	Params	Valid PPL	Test PPL
Baseline Transformer	layers=11, d=1024, D=4096	222M	24.90	24.96
Wider Transformer	layers=11, d=2048, D=6144	755M	23.32	23.38
Deeper Transformer	layers=22, d=1536, D=4096	755M	22.72	22.78
Switch Transformer	layers=11,modules=1x64, load_bal=0.1	751M	23.65	23.73
Hash Layer	layers=11,modules=1x64	751M	23.16	23.23
Switch Transformer	layers=11,modules=1x128, load_bal=0.1	1.28B	23.52	23.58
Hash Layer	layers=11,modules=1x128	1.28B	22.89	22.95
Switch Transformer	layers=11,modules=5x16, load_bal=0.01	852M	23.19	23.25
Switch Transformer	layers=11,modules=5x16, load_bal=0.1	852M	23.00	22.93
Hash Layer	layers=11,modules=5x16	852M	23.21	23.27

Hash Layers は Reddit および RoBERTa+cc100en において、同程度のパラメータ数で Switch Transformers を上回るか互換性がある。
64 または 128 のモジュールを持つ Hash Layers は、同じ計算予算で同等の Switch の場合より低い perplexity を達成。
学習済みゲートなしのハッシュルーティングは頑健で実装が簡単、ロードバランシングの失敗やルーティング最適化の難しさを避けられる。
後段レイヤーへの Hash Layer 配置は、前段レイヤーより perplexity の改善効果が高く、BASE Layers の知見と一致。
マルチハッシュ（2–8 ハッシュ）は、単一ハッシュより性能を向上させつつ総パラメータ数は一定を維持。
BASE Layers との比較では、Hash Layers は perplexity が同等以上で、ルーティングのデコレレーションを回避することで更新/更新速度が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。