Skip to main content
QUICK REVIEW

[논문 리뷰] Tensorized Embedding Layers for Efficient Model Compression

Oleksii Hrinchuk, Valentin Khrulkov|arXiv (Cornell University)|2019. 01. 30.
Advanced Data Compression Techniques참고 문헌 64인용 수 50
한 줄 요약

논문은 TT–embedding를 도입합니다. 이는 텐서 트레인 기반의 임베딩-layer 매개변수화로 메모리 사용량을 크게 줄이면서 NLP 태스크의 성능을 유지하거나 향상시키고, 표준 모델 내에서 end-to-end로 학습됩니다.

ABSTRACT

The embedding layers transforming input words into real vectors are the key components of deep neural networks used in natural language processing. However, when the vocabulary is large, the corresponding weight matrices can be enormous, which precludes their deployment in a limited resource setting. We introduce a novel way of parametrizing embedding layers based on the Tensor Train (TT) decomposition, which allows compressing the model significantly at the cost of a negligible drop or even a slight gain in performance. We evaluate our method on a wide range of benchmarks in natural language processing and analyze the trade-off between performance and compression ratios for a wide range of architectures, from MLPs to LSTMs and Transformers.

연구 동기 및 목표

  • 큰 NLP 어휘 규모로 인한 임베딩 계층 압축의 필요성을 제고한다.
  • 표준 임베딩 행렬을 텐서화된 표현으로 대체하기 위해 TT–embedding을 제안한다.
  • NLP 태스크 전반에서 압축 비율과 성능 간의 트레이드오프를 분석한다.
  • 일반 아키텍처(MLP, LSTM, Transformer) 내에서 TT–embedding의 end-to-end 학습 가능성을 시연한다.
  • 실용화를 위한 TT-형상과 TT-랭크 하이퍼파라미터에 대한 지침을 제공한다.

제안 방법

  • 입력/출력 차원을 N개 인자로 재구성하고 TT 코어를 학습시켜 임베딩 행렬을 TT–매트릭스로 표현한다.
  • 일련의 연산으로 슬라이스 선택과 행렬 곱을 통해 TT 코어를 수축하여 어휘 임베딩을 계산한다.
  • 식(3)에 따른 제어된 분산을 보장하는 수정된 Glorot 유사 방식으로 TT 코어를 초기화한다.
  • 표준 계층(LSTM, Transformer 등)과 함께 역전파로 TT–embedding을 엔드투엔드로 학습시킨다.
  • 선택적으로 TT–embedding을 저랭크 분해 및 Tensor Ring 변형과 비교하고, 전체 랭크 표현성(Theorem 1)을 통해 TT를 정당화한다.
  • TT 형상과 랭크를 선택하기 위한 실용적 지침을 제공하고 일반화/정규화 영향에 대해 논의한다.

실험 결과

연구 질문

  • RQ1TT–embedding이 태스크 성능을 저하시키지 않으면서 임베딩 계층의 상당한 압축을 달성할 수 있는가?
  • RQ2압축 비율과 정확도 간의 TT–embedding의 트레이드오프는 저랭크 분해와 어떻게 비교되는가?
  • RQ3TT–임베딩은 softmax 병목 현상에서 완전한 표현력을 유지하고 랭크 붕괴를 피하는가?
  • RQ4TT-형상/랭크 선택이 NLP 태스크 전반에서 학습 효율성과 일반화에 미치는 영향은 무엇인가?
  • RQ5대형 어휘 태스크인 CTR 예측 및 언어 모델링에 TT–embedding이 이점이 있는가?

주요 결과

  • TT–embedding은 IMDB에서 441×, WMT En-De에서 15×, WikiText-103에서 3.8×와 같은 상당한 압축을 달성하면서 일부 태스크에서 동일하거나 향상된 정확도를 보인다.
  • CN 실험에서 TT–embedding은 감정 분석, NMT, 언어 모델링에 걸친 압축-정확도 트레이드오프에서 저랭크 임베딩을 능가할 수 있다.
  • 이 방법은 표준 아키텍처 내에서 엔드투엔드 학습이 가능하며 기존 파이프라인에 최소한의 변경으로 통합될 수 있다.
  • 이론적 분석은 거의 모든 TT 구성에서 결과 임베딩 행렬의 전체 랭크를 보존하여 softmax 병목 현상의 우려를 완화한다고 보인다.
  • CTR 실험은 성능 저하가 거의 없고 전체 모델 크기가 20 MB 미만인 상태에서 최대 2011×의 압축을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.