Skip to main content
QUICK REVIEW

[論文レビュー] Hyperbolic Attention Networks

Çaǧlar Gülçehre, Misha Denil|arXiv (Cornell University)|May 24, 2018
Multimodal Machine Learning Applications参考文献 29被引用数 46
ひとこと要約

本論文は、ニューラル活性を雙曲空間へ写像し、雙曲マッチングと雙曲集約によって注意を再定義する Hyperbolic Attention Networks を提案し、翻訳、グラフタスク、VQA における性能をコンパクトな表現で改善する。

ABSTRACT

We introduce hyperbolic attention networks to endow neural networks with enough capacity to match the complexity of data with hierarchical and power-law structure. A few recent approaches have successfully demonstrated the benefits of imposing hyperbolic geometry on the parameters of shallow networks. We extend this line of work by imposing hyperbolic geometry on the activations of neural networks. This allows us to exploit hyperbolic geometry to reason about embeddings produced by deep networks. We achieve this by re-expressing the ubiquitous mechanism of soft attention in terms of operations defined for hyperboloid and Klein models. Our method shows improvements in terms of generalization on neural machine translation, learning on graphs and visual question answering tasks while keeping the neural representations compact.

研究の動機と目的

  • データの階層性とパワー則構造を捉える幾何認識的帰納バイアスを動機づける。
  • ニューロン活性化の雙曲表現を提案し、複雑な関係データをより適切にモデル化する。
  • 一般的なアーキテクチャでの使用に向けた雙曲的注意機構の類推を開発する。
  • コンパクトな表現で neural machine translation、graph learning、visual question answering のようなタスクで改善を示す。

提案手法

  • 活性化を雙曲円モデルへ写像し、指数的スケーリング特性を保持するための pseudo-polar projection を用いる。
  • 雙曲距離に基づく雙曲マッチングと Klein 座標系の Einstein 中点による雙曲集約を用いて雙曲的注意を定義する。
  • Relation Networks と Transformer の標準の attn コンポーネントを雙曲的対になるもので置換する。
  • 注意重みを雙曲距離の softmax または sigmoid のいずれかで計算できるようにする。
  • Weierstrass/ polar の異なる座標系と注意のバリエーション(sigmoid/softmax)を試して性能を評価する。
  • スケールフリーなグラフ予測、Sort-of-CLEVR、CLEVR、 neural machine translation (WMT14 En-De) などのタスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1雙曲幾何を活性化へ適用することは、データの階層性とスケールフリー構造をモデル化する能力を向上させるか?
  • RQ2雙曲注意機構は、Euclidean 注意と比較して NLP、グラフ、視覚言語タスクで一般化と性能を向上させるか?
  • RQ3小規模 vs 大規模のアーキテクチャにおけるモデル容量と表現のコンパクト性に対する雙曲注意の影響はどうか?
  • RQ4雙曲的マッチングと雙曲的集約は、Transformer や Relation Networks のような注意ベースのアーキテクチャ内でどのように相互作用するか?

主な発見

モデル小型ベース
Transformer (Vaswani et al.)-27.3
Transformer (Shaw et al.)-26.5
Transformer (Latest)17.327.1
Hyperbolic Transformer (+Sigmoid)17.327.4
Hyperbolic Transformer (+Softmax, +Polar)17.527.0
Hyperbolic Transformer (+Sigmoid, +Polar)18.027.5
  • 雙曲注意は Euclidean 注意と比較して neural machine translation、 graph learning、 visual question answering の性能を向上させる。
  • 雙曲モデルは大きなグラフでより大きな活性化スケールを使用する傾向があり、階層構造への適応を示す。
  • 低容量設定で雙曲注意は関係推論の性能を著しく向上させる。
  • WMT14 En-De 翻訳では、sigmoid 注意を用いた最良の雙曲モデルが big architecture で 28.45 BLEU を達成(ベースラインと同等かそれ以上)。
  • 合成スケールフリーグラフで、雙曲 Recursive Transformers はリンク予測と最短経路タスクでユークリッドの counterparts を上回る。
  • CLEVR および Sort-of-CLEVR データセットで、Relation Networks の雙曲注意が精度を向上させ、特に低容量レジームで効果的。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。