QUICK REVIEW

[논문 리뷰] BP-Transformer: Modelling Long-Range Context via Binary Partitioning

Zihao Ye, Qipeng Guo|arXiv (Cornell University)|2019. 11. 11.

Topic Modeling참고 문헌 31인용 수 56

한 줄 요약

BP-Transformer는 이진 분할 다중 스케일 그래프 주의 메커니즘을 사용하여 O(k · n log(n/k)) 연결로 긴 범위 맥락을 모델링하고, 긴 텍스트 NLP 작업에서 강력한 성능을 달성하는 동시에 효율성을 향상시킨다.

ABSTRACT

The Transformer model is widely successful on many natural language processing tasks. However, the quadratic complexity of self-attention limit its application on long text. In this paper, adopting a fine-to-coarse attention mechanism on multi-scale spans via binary partitioning (BP), we propose BP-Transformer (BPT for short). BPT yields $O(k\cdot n\log (n/k))$ connections where $k$ is a hyperparameter to control the density of attention. BPT has a good balance between computation complexity and model capacity. A series of experiments on text classification, machine translation and language modeling shows BPT has a superior performance for long text than previous self-attention models. Our code, hyperparameters and CUDA kernels for sparse attention are available in PyTorch.

연구 동기 및 목표

제곱형 자기-주의 비용을 넘어서 긴 텍스트 모델링의 개선을 동기로 삼는다.
다중 스케일 구간에 대해 계층적이고 미세-거친까지의 주의 편향을 도입한다.
희소하고 구조화된 연결을 통해 계산 비용을 줄이면서 모델 용량의 균형을 맞춘다.
입력을 토큰 노드와 구간 노드가 있는 그래프로 표현하고 그래프 자기주의를 통해 업데이트한다.
문장 수준과 문서 수준의 NLP 작업에서 효과를 입증한다.

제안 방법

이진 분할을 사용하여 입력 시퀀스를 다중 스케일 구간으로 분할하고 계층적 그래프를 형성한다.
밀도는 k에 의해 제어되는 두 가지 간선 유형을 구성한다: affiliated edges (span-to-contained tokens)와 contextual edges (fineto-coarse right-context connections)로,
노드 표현을 구성된 그래프 레이어에서 그래프 자기주의를 통해 업데이트한다.
BP-트리에 위치 편향을 포착하기 위해 상대 위치 인코딩을 트리 구조로 일반화한다.
주의 계산에 상대 트리 기반 위치 표현을 통합한다(헤드 간 공유).
희소 주의에 대한 CUDA 커널을 제공하고 학습/추론 효율성 향상을 보고한다.

실험 결과

연구 질문

RQ1BP-Transformer가 희소하고 계층적인 연결로 긴 거리 의존성을 효율적으로 모델링할 수 있는가?
RQ2이진 분할을 통한 미세→거친 주의가 일반 Transformer 및 다른 희소 주의 모델보다 긴 텍스트에서 성능을 향상시키는가?
RQ3강력한 기준선과 비교할 때 문장 수준 및 문서 수준의 NLP 작업(분류, 번역, 언어 모델링)에서 BP-Transformer의 성능은 어떠한가?

주요 결과

BP-Transformer는 언어 모델링, 번역, 텍스트 분류에서 강한 결과를 달성하고 긴 텍스트에서 기준선을 능가한다.
텍스트 분류에서 BP-Transformer는 SST-5: 52.71% (0.32) 및 IMDB: 92.12% (0.11) k=2/4로 제공한다; IMDB에서 Transformer와 Star Transformer를 능가한다.
Enwiki8/Text8의 문자 수준 언어 모델링은 1.02/1.11 비트-퍼-캐릭터(맥락 길이 최대 8192)로 최첨단 성능을 보이며 k=64를 사용한다.
IWSLT Zh-En의 문서 수준 번역에서 BP-T로 BLEU가 19.84로 향상되며, 이는 18.91(문장 수준 Transformer) 및 17.78(HAN-NMT)와 비교된다.
문장 수준 WMT14 영어-독일어에서 BP-T가 BLEU 최대 27.6(k=4)를 달성하여 같은 매개변수 수의 Transformer 기준선과 일치하거나 능가한다.
BP-Transformer는 GPU 메모리 사용량을 줄이고 긴 시퀀스에서 꾸준한 처리량을 유지하여 시퀀스 길이가 증가함에 따라 일반 Transformer를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.