Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Tao Shen, Tianyi Zhou|arXiv (Cornell University)|2018. 01. 31.
Topic Modeling참고 문헌 34인용 수 26
한 줄 요약

이 논문은 RNN/CNN을 사용하지 않는 문장 인코딩 모델인 강화된 자기주의 네트워크(ReSAN)를 제안한다. 이 모델은 새로운 병렬 처리가 가능한 딱딱한 주의 메커니즘인 강화된 시퀀스 샘플링(RSS)과 소프트 자기주의를 조합하여 장문의 시퀀스에서 희박한 의존 관계를 효율적으로 모델링한다. RSS를 통해 핵심 토큰을 선택하고 소프트 주의를 통해 정책 기반 강화 보상 신호를 제공함으로써, ReSAN은 파arameter 수가 적고 추론 속도가 빠르며 SNLI 및 SICK 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Many natural language processing tasks solely rely on sparse dependencies between a few tokens in a sentence. Soft attention mechanisms show promising performance in modeling local/global dependencies by soft probabilities between every two tokens, but they are not effective and efficient when applied to long sentences. By contrast, hard attention mechanisms directly select a subset of tokens but are difficult and inefficient to train due to their combinatorial nature. In this paper, we integrate both soft and hard attention into one context fusion model, "reinforced self-attention (ReSA)", for the mutual benefit of each other. In ReSA, a hard attention trims a sequence for a soft self-attention to process, while the soft attention feeds reward signals back to facilitate the training of the hard one. For this purpose, we develop a novel hard attention called "reinforced sequence sampling (RSS)", selecting tokens in parallel and trained via policy gradient. Using two RSS modules, ReSA efficiently extracts the sparse dependencies between each pair of selected tokens. We finally propose an RNN/CNN-free sentence-encoding model, "reinforced self-attention network (ReSAN)", solely based on ReSA. It achieves state-of-the-art performance on both Stanford Natural Language Inference (SNLI) and Sentences Involving Compositional Knowledge (SICK) datasets.

연구 동기 및 목표

  • 비어 있지 않은 주의가 의미 없는 토큰들에 대해서도 적용되는 것 때문에 소프트 주의가 장문의 시퀀스에서 비효율적이고 일반화 성능이 떨어지는 문제를 해결한다.
  • 조합적 선택 과정으로 인해 비가역적이고 느린 훈련을 겪는 딱딱한 주의의 비가역성과 느린 훈련 문제를 해결한다.
  • 딱딱한 주의와 소프트 주의 메커니즘을 통합하여 훈련 안정성과 모델링 능력을 상호 보완하도록 한다.
  • 고성능과 효율성을 유지하면서도 RNN 및 CNN을 완전히 제거한 경량 아키텍처를 개발한다.
  • 재귀적 또는 순환적, 컨volutional 구조에 의존하지 않고 자연어 추론 및 의미 유사성 작업에서 최신 기술 수준의 성능을 달성한다.

제안 방법

  • 정책 기반 강화 학습을 사용하여 순차적 샘플링을 피하는 병렬 처리가 가능한 새로운 딱딱한 주의 메커니즘인 강화된 시퀀스 샘플링(RSS)을 제안한다.
  • 두 개의 입력 시퀀스 복제본에서 독립적으로 헤드 및 종속 토큰을 선택하는 하이브리드 모델인 강화된 자기주의(ReSA)를 설계한다.
  • 선택된 헤드 및 종속 토큰 간의 주의 점수를 소프트 자기주의를 통해 계산하여 희박하고 의미 있는 의존 관계에 집중한다.
  • 소프트 자기주의의 주의 점수를 조밀한 보상 신호로 사용하여 RSS 모듈을 정책 기반 강화(예: REINFORCE)로 훈련시킨다.
  • RNN 및 CNN을 완전히 제거한 ReSA 기반의 완전한 문장 인코딩 모델인 ReSAN을 구성한다.
  • 선택된 토큰에서 직접 예측이 가능하도록 소스2토큰 자기주의 메커니즘을 적용한다.

실험 결과

연구 질문

  • RQ1딱딱한 주의와 소프트 주의를 융합한 하이브리드 주의 메커니즘이 장문의 시퀀스에서 모델링 효율성과 성능을 향상시킬 수 있는가?
  • RQ2RSS와 같은 병렬 처리가 가능한 비재귀적 딱딱한 주의 메커니즘이 정책 기반 강화 학습을 통해 효과적으로 훈련될 수 있으며 높은 성능을 유지할 수 있는가?
  • RQ3소프트 주의를 보상 신호로 통합함으로써 딱딱한 주의의 훈련 가능성과 정확도가 향상되는가?
  • RQ4ReSAN처럼 완전히 주의 기반이며 RNN/CNN이 없는 모델이 자연어 추론 및 의미 유사성 작업에서 기존 아키텍처를 능가할 수 있는가?
  • RQ5최신 기술 수준의 모델과 비교해 모델의 파arameter 수와 추론 시간을 얼마나 줄일 수 있으며, 정확도는 유지 또는 향상되는가?

주요 결과

  • ReSAN은 공식 SNLI 랭킹에서 모든 문장 인코딩 모델 중 가장 높은 테스트 정확도를 기록하며 새로운 최신 기술 수준을 수립했다.
  • SICK 데이터셋에서 ReSAN은 의미 유사성 작업에서 최신 기술 수준의 성능을 달성하여 기존 모델을 능가했다.
  • RNN, CNN, 심지어 복잡한 외부 메모리 기반 모델들보다도 파arameter 수가 적고 추론 속도가 더 빠르다.
  • 시각화 결과 ReSA는 의미적으로 중요한 단어들(예: 동사와 명사)을 헤드 및 종속 토큰으로 효과적으로 선택하고 대부분의 정지어를 걸러내는 것으로 나타났다.
  • 소프트 자기주의 모듈은 의미 있는 어휘 쌍(예: 'sit'과 'talk')이 형성하는 의미 그룹에 대해 더 높은 주의 점수를 할당하여 효과적인 의존 관계 모델링을 확인했다.
  • RSS 메커니즘은 병렬 토큰 선택을 가능하게 하여 순차적 딱딱한 주의 방법에 비해 훨씬 높은 훈련 효율성을 확보했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.