[논문 리뷰] Trellis Networks for Sequence Modeling
TrellisNet은 층 간 가중치를 묶고 입력을 모든 층에 주입하는 새로운 시퀀스 모델로, 순환형 모델과 컨볼루션 모델 사이의 다리 역할을 하며 여러 언어 모델링 및 장거리 벤치마크에서 최첨단 결과를 달성합니다.
We present trellis networks, a new architecture for sequence modeling. On the one hand, a trellis network is a temporal convolutional network with special structure, characterized by weight tying across depth and direct injection of the input into deep layers. On the other hand, we show that truncated recurrent networks are equivalent to trellis networks with special sparsity structure in their weight matrices. Thus trellis networks with general weight matrices generalize truncated recurrent networks. We leverage these connections to design high-performing trellis networks that absorb structural and algorithmic elements from both recurrent and convolutional models. Experiments demonstrate that trellis networks outperform the current state of the art methods on a variety of challenging benchmarks, including word-level language modeling and character-level language modeling tasks, and stress tests designed to evaluate long-term memory retention. The code is available at https://github.com/locuslab/trellisnet .
연구 동기 및 목표
- 시퀀스 모델링을 위한 새로운 아키텍처(TrellisNet)를 탐구하여 순환적 접근과 컨볼루션 기반 접근을 통합한다.
- TrellisNet이 잘려진 RNN을 재현하고 표준 벤치마크에서 이를 능가하는지 입증한다.
- 단어 수준 및 문자 수준의 언어 모델링과 장거리 기억 작업에서 실질적 이점을 보여준다.
- TrellisNet, TCNs, RNN 간의 연관성을 분석하여 기술의 교차 수용을 가능하게 한다.
제안 방법
- TrellisNet을 입력 계층 간 주입이 있는 인과적이고 깊이가 있는 가중치 결합 1D 컨볼루션 아키텍처로 정의한다.
- M-잘려진 RNN과 간헐 간격 커널을 사용하는 TrellisNet 간의 등가성을 보인다(정리 1).
- RNN을 모방하는 희소 가중치 구조를 구현하기 위해 혼합 그룹 컨볼루션을 사용한다.
- TrellisNet 내에서 LSTM 셀에서 영감을 받은 게이트 활성화(게이트 활성화)를 채택한다.
- 확장과 연결: CNN의 기법(확장, 보조 손실, 가중치 정규화)과 RNN의 기법(LSTM 게이트, 변분 드롭아웃)을 활용해 TrellisNet을 향상시킨다.
- PTB, WT103, PTB 문자 모델링, 장거리 작업(Sequential MNIST, Permuted MNIST, Sequential CIFAR-10)에서 평가한다.
실험 결과
연구 질문
- RQ1TrellisNet이 잘려진 RNN을 일반화하고 RNN과 CNN의 다리 역할을 할 수 있는가?
- RQ2깊이에 걸친 가중치 묶음과 입력 주입이 시퀀스 모델링 성능을 향상시키는가?
- RQ3TrellisNet이 단어 수준 및 문자 수준 언어 모델링에서 최첨단 perplexities를 달성할 수 있는가?
- RQ4장거리 기억 벤치마크에서 TrellisNet의 성능은 순환 및 자기 주의 모델과 비교해 어떤가?
주요 결과
- TrellisNet은 Penn Treebank 단어 수준 모델링 및 WikiText-103에서 새로운 최첨단 perplexities를 설정한다.
- PTB에서 TrellisNet은 24M 매개변수로 56.97 perplexity를 달성하며, 더 큰 구성에서 54.19에 도달한다.
- WT103에서 TrellisNet은 29.19 perplexity를 달성하며 Relational Memory Core 및 Merity 등 결과를 능가한다.
- 문자 수준 PTB에서 TrellisNet은 1.158 bits-per-character를 달성하여 이전 최댓값을 넘어선다.
- 장거리 벤치마크에서 TrellisNet은 가장 높은 보고된 정확도를 달성한다: Seq MNIST 99.20, Permuted MNIST 98.13, Seq CIFAR-10 73.42.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.