Skip to main content
QUICK REVIEW

[논문 리뷰] Hyperbolic Attention Networks

Çaǧlar Gülçehre, Misha Denil|arXiv (Cornell University)|2018. 05. 24.
Multimodal Machine Learning Applications참고 문헌 29인용 수 46
한 줄 요약

본 논문은 신경 활성화를 쌍곡 공간으로 매핑하고 쌍곡 매칭 및 집계를 통해 어텐션을 재정의함으로써 하이퍼볼릭 어텐션 네트워크를 제시하고, 번역, 그래프 작업, VQA에서 컴팩트한 표현으로 성능을 향상시킨다.

ABSTRACT

We introduce hyperbolic attention networks to endow neural networks with enough capacity to match the complexity of data with hierarchical and power-law structure. A few recent approaches have successfully demonstrated the benefits of imposing hyperbolic geometry on the parameters of shallow networks. We extend this line of work by imposing hyperbolic geometry on the activations of neural networks. This allows us to exploit hyperbolic geometry to reason about embeddings produced by deep networks. We achieve this by re-expressing the ubiquitous mechanism of soft attention in terms of operations defined for hyperboloid and Klein models. Our method shows improvements in terms of generalization on neural machine translation, learning on graphs and visual question answering tasks while keeping the neural representations compact.

연구 동기 및 목표

  • 데이터의 계층 구조 및 멱-법칙 구조를 포착하기 위한 기하-인덕티브 바이어스의 필요성을 제시한다.
  • 복잡한 관계 데이터를 더 잘 모델링하기 위해 신경 활성화에 대한 하이퍼볼릭 표현을 제안한다.
  • 일반 아키텍처에서 사용할 수 있도록 어텐션 메커니즘의 하이퍼볼릭 유사체를 개발한다.
  • 컴팩트한 표현으로 신경 기계 번역, 그래프 학습, 시각적 질문 응답과 같은 작업에서 개선을 입증한다.

제안 방법

  • 활성화를 지하이퍼볼릭 거리 기반의 하이퍼볼릭 매칭과 Klein 좌표를 이용한 Einstein 중간점으로의 하이퍼볼릭 집계를 통해 하이퍼볼릭 어텐션을 정의한다.
  • 활성화를 지오메트릭의 하이퍼볼로이드 모델에 매핑하고, 지수적 스케일링 특성을 보존하기 위해 가짜 극좌표 투영(pseudo-polar projection)을 사용한다.
  • Relation Networks와 Transformer의 표준 attn 구성요소를 하이퍼볼릭 대안으로 교체한다.
  • 하이퍼볼릭 거리에서 softmax 또는 sigmoid으로 어텐션 가중치를 계산할 수 있도록 한다.
  • 성능 평가를 위해 서로 다른 좌표계(Weierstrass/polar)와 어텐션 변형(sigmoid/softmax)을 실험한다.
  • 스케일-프리 그래프 예측, Sort-of-CLEVR, CLEVR, 신경 기계 번역(WMT14 En-De) 등의 작업에서 평가한다.

실험 결과

연구 질문

  • RQ1활성화에 적용된 하이퍼볼릭 기하가 데이터의 계층적 구조와 스케일-프리 구조를 모델링하는 능력을 향상시킬 수 있는가?
  • RQ2하이퍼볼릭 어텐션 메커니즘이 유클리드 어텐션에 비해 NLP, 그래프, 비전-언어 task에서 일반화 및 성능을 향상시키는가?
  • RQ3작은 아키텍처와 큰 아키텍처에서 모델 용량과 표현의 컴팩트성에 미치는 하이퍼볼릭 어텐션의 영향은 무엇인가?
  • RQ4Transformer와 Relation Networks와 같은 어텐션 기반 아키텍처 내에서 하이퍼볼릭 매칭과 하이퍼볼릭 집계가 어떻게 상호작용하는가?

주요 결과

  • 하이퍼볼릭 어텐션은 유클리드 어텐션과 비교하여 신경 기계 번역, 그래프 학습, 시각적 질문 응답에서 향상을 가져온다.
  • 하이퍼볼릭 모델은 더 큰 그래프에서 활성화 스케일을 더 크게 사용하는 경향이 있어 계층적 구조에 적응함을 나타낸다.
  • 저용량 설정에서 하이퍼볼릭 어텐션은 관계 추론 성능을 크게 향상시킨다.
  • WMT14 En-De 번역의 경우 sigmoid 어텐션을 가진 최고의 하이퍼볼릭 모델이 큰 아키텍처에서 한 설정에서 28.45 BLEU를 달성했다(베이스라인에 비해 동등하거나 우수).
  • 합성 스케일-프리 그래프에서 하이퍼볼릭 Recursive Transformers는 링크 예측 및 최단 경로 작업에서 유클리드 상대를 능가한다.
  • CLEVR 및 Sort-of-CLEVR 데이터셋에서 Relation Networks의 하이퍼볼릭 어텐션은 정확도를 향상시키며, 특히 저용량 환경에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.