Skip to main content
QUICK REVIEW

[논문 리뷰] BP-Transformer: Modelling Long-Range Context via Binary Partitioning

Zihao Ye, Qipeng Guo|arXiv (Cornell University)|2019. 11. 11.
Topic Modeling참고 문헌 31인용 수 56
한 줄 요약

BP-Transformer는 이진 분할 다중 스케일 그래프 주의 메커니즘을 사용하여 O(k · n log(n/k)) 연결로 긴 범위 맥락을 모델링하고, 긴 텍스트 NLP 작업에서 강력한 성능을 달성하는 동시에 효율성을 향상시킨다.

ABSTRACT

The Transformer model is widely successful on many natural language processing tasks. However, the quadratic complexity of self-attention limit its application on long text. In this paper, adopting a fine-to-coarse attention mechanism on multi-scale spans via binary partitioning (BP), we propose BP-Transformer (BPT for short). BPT yields $O(k\cdot n\log (n/k))$ connections where $k$ is a hyperparameter to control the density of attention. BPT has a good balance between computation complexity and model capacity. A series of experiments on text classification, machine translation and language modeling shows BPT has a superior performance for long text than previous self-attention models. Our code, hyperparameters and CUDA kernels for sparse attention are available in PyTorch.

연구 동기 및 목표

  • 제곱형 자기-주의 비용을 넘어서 긴 텍스트 모델링의 개선을 동기로 삼는다.
  • 다중 스케일 구간에 대해 계층적이고 미세-거친까지의 주의 편향을 도입한다.
  • 희소하고 구조화된 연결을 통해 계산 비용을 줄이면서 모델 용량의 균형을 맞춘다.
  • 입력을 토큰 노드와 구간 노드가 있는 그래프로 표현하고 그래프 자기주의를 통해 업데이트한다.
  • 문장 수준과 문서 수준의 NLP 작업에서 효과를 입증한다.

제안 방법

  • 이진 분할을 사용하여 입력 시퀀스를 다중 스케일 구간으로 분할하고 계층적 그래프를 형성한다.
  • 밀도는 k에 의해 제어되는 두 가지 간선 유형을 구성한다: affiliated edges (span-to-contained tokens)와 contextual edges (fineto-coarse right-context connections)로,
  • 노드 표현을 구성된 그래프 레이어에서 그래프 자기주의를 통해 업데이트한다.
  • BP-트리에 위치 편향을 포착하기 위해 상대 위치 인코딩을 트리 구조로 일반화한다.
  • 주의 계산에 상대 트리 기반 위치 표현을 통합한다(헤드 간 공유).
  • 희소 주의에 대한 CUDA 커널을 제공하고 학습/추론 효율성 향상을 보고한다.

실험 결과

연구 질문

  • RQ1BP-Transformer가 희소하고 계층적인 연결로 긴 거리 의존성을 효율적으로 모델링할 수 있는가?
  • RQ2이진 분할을 통한 미세→거친 주의가 일반 Transformer 및 다른 희소 주의 모델보다 긴 텍스트에서 성능을 향상시키는가?
  • RQ3강력한 기준선과 비교할 때 문장 수준 및 문서 수준의 NLP 작업(분류, 번역, 언어 모델링)에서 BP-Transformer의 성능은 어떠한가?

주요 결과

  • BP-Transformer는 언어 모델링, 번역, 텍스트 분류에서 강한 결과를 달성하고 긴 텍스트에서 기준선을 능가한다.
  • 텍스트 분류에서 BP-Transformer는 SST-5: 52.71% (0.32) 및 IMDB: 92.12% (0.11) k=2/4로 제공한다; IMDB에서 Transformer와 Star Transformer를 능가한다.
  • Enwiki8/Text8의 문자 수준 언어 모델링은 1.02/1.11 비트-퍼-캐릭터(맥락 길이 최대 8192)로 최첨단 성능을 보이며 k=64를 사용한다.
  • IWSLT Zh-En의 문서 수준 번역에서 BP-T로 BLEU가 19.84로 향상되며, 이는 18.91(문장 수준 Transformer) 및 17.78(HAN-NMT)와 비교된다.
  • 문장 수준 WMT14 영어-독일어에서 BP-T가 BLEU 최대 27.6(k=4)를 달성하여 같은 매개변수 수의 Transformer 기준선과 일치하거나 능가한다.
  • BP-Transformer는 GPU 메모리 사용량을 줄이고 긴 시퀀스에서 꾸준한 처리량을 유지하여 시퀀스 길이가 증가함에 따라 일반 Transformer를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.