QUICK REVIEW

[논문 리뷰] Mixed Dimension Embeddings with Application to Memory-Efficient Recommendation Systems

Antonio Ginart, Maxim Naumov|arXiv (Cornell University)|2019. 09. 25.

Recommender Systems and Techniques참고 문헌 77인용 수 32

한 줄 요약

이 논문은 추천 시스템에 대해 임베딩 벡터의 차원이 특성의 인기도에 따라 변동되도록 하는 혼합 차원(MD) 임베딩을 제안한다. 고빈도로 쿼리되는 항목에는 더 많은 파라미터를 할당하고, 희귀한 항목에는 더 적은 파라미터를 할당함으로써, Criteo 데이터셋에서 정확도 손실 없이 메모리 사용을 최대 16배까지 줄일 수 있으며, GPU에서 학습 속도도 2배 이상 빠르게 한다.

ABSTRACT

Embedding representations power machine intelligence in many applications, including recommendation systems, but they are space intensive -- potentially occupying hundreds of gigabytes in large-scale settings. To help manage this outsized memory consumption, we explore mixed dimension embeddings, an embedding layer architecture in which a particular embedding vector's dimension scales with its query frequency. Through theoretical analysis and systematic experiments, we demonstrate that using mixed dimensions can drastically reduce the memory usage, while maintaining and even improving the ML performance. Empirically, we show that the proposed mixed dimension layers improve accuracy by 0.1% using half as many parameters or maintain it using 16X fewer parameters for click-through rate prediction task on the Criteo Kaggle dataset.

연구 동기 및 목표

대규모 추천 시스템에서 임베딩 레이어의 높은 메모리 소비 문제를 해결하되, 이는 모델 저장 용량의 99.9% 이상을 차지할 수 있다.
낮은 빈도의 특성에 대해 파라미터 낭비가 발생하고 높은 빈도의 특성에 대해 과소적합이 발생하는 고정된 균일한 임베딩 차원의 비효율성을 해결한다.
특성 쿼리 빈도에 따라 동적으로 임베딩 차원을 조정하는 파라미터 효율적인 임베딩 아키텍처를 개발한다.
왜곡 최소화와 메모리 제약 하에서 일반화 성능 향상을 입증하기 위해 이론적 및 실험적 검증을 수행한다.
기존 비균일 임베딩 방법에 비해 더 빠른 학습 속도와 더 낮은 튜닝 복잡도를 달성한다.

제안 방법

각 임베딩 벡터의 차원을 고정된 균일한 차원이 아닌 쿼리 빈도에 따라 설정하는 혼합 차원(MD) 임베딩 레이어를 제안한다.
전체 파라미터 예산 내에서 재구성 왜곡을 최소화하는 조건 하에 임베딩 차원 선택 문제를 볼록 최적화 문제로 공식화한다.
임베딩 행렬을 각 쿼리 쌍에 해당하는 블록들의 합으로 모델링하기 위해 저랭크 근사 프레임워크를 사용한다.
라그랑주 승수를 활용한 리아프라시피에이션을 통해 최적의 차원 할당 규칙을 유도하며, 각 특성 쌍의 최적 차원은 그 인기도, 스펙트럼 감쇠율, 파라미터 예산에 의해 결정된다.
구력 법 스펙트럼 감쇠가 성립할 경우, 닫힌 형태의 해를 유도한다: $ d^{*}_{ij} = \lambda \zeta_{ij} \Pi_{ij}^{1/(2\beta)} $, 여기서 $ \lambda $는 라그랑주 승수이고 $ \zeta_{ij} $는 특성 크기와 스펙트럼 감쇠에 따라 결정된다.
가능성 확보를 위해 연속적인 최적 차원을 정수로 내림처리하며, 이에 따른 근사 오차는 작고, 일반적으로 <1–10% 스펙트럼 질량 손실 수준이다.

Figure 1 : Matrix Architecture for UD and MD Embedding Layers.

실험 결과

연구 질문

RQ1특성의 인기도에 기반해 임베딩 차원을 동적으로 할당함으로써 정확도 손실 없이 메모리 사용을 줄일 수 있는가?
RQ2메모리 제약 하에서 재구성 왜곡과 일반화 성능 측면에서 혼합 차원 임베딩이 균일 차원 임베딩을 능가하는가?
RQ3각 특성의 인기도와 전체 파라미터 예산을 고려할 때 최적의 임베딩 차원은 무엇인가?
RQ4기존 비균일 임베딩 아키텍처에 비해 제안된 방법은 학습 속도와 튜닝 복잡도 측면에서 어떻게 비교되는가?
RQ5스펙트럼 감쇠, 인기도 편향 등의 조건에서 MD 임베딩이 균일 임베딩에 비해 증명 가능한 개선을 이끌어내는 조건은 무엇인가?

주요 결과

Criteo Kaggle 데이터셋에서 MD 임베딩은 균일 임베딩보다 파라미터 수의 절반만 사용하면서도 정확도가 0.1% 높게 유지된다.
MD 임베딩은 균일 임베딩과 동일한 정확도를 유지하면서도 파라미터 수를 최대 16배까지 줄여, 뛰어난 파라미터 효율성을 입증한다.
GPU에서 MD 임베딩을 사용한 학습은 메모리 대역폭 압박 감소와 더 효율적인 계산으로 인해 2배 이상 빠른 속도를 기록한다.
이론적 분석을 통해 데이터가 메모리 제약이 있고 인기도 분포가 충분히 편향되어 있을 경우, MD 임베딩이 균일 임베딩보다 더 낮은 재구성 왜곡을 유발한다는 것을 입증한다.
구력 법 스펙트럼 감쇠가 성립할 경우, 최적의 임베딩 차원은 $ \Pi_{ij}^{1/(2\beta)} $ 비례로 증가하며, 여기서 $ \Pi_{ij} $는 특성 쌍의 인기도이다.
연속적인 최적 차원을 정수로 내림처리함으로써 발생하는 근사 오차는 작다(일般적으로 <1–10% 스펙트럼 질량 손실), 실용적 실행 가능성 보장.

Figure 2 : CTR prediction results for MD embeddings on Criteo dataset using DLRM. Implementation is available as part of an open-source project on GitHub: facebookresearch/dlrm . Fig. 2a (left): Learning curves for selected emb. arch. Fig. 2b (center): Loss vs. # param. for varying $\alpha$ . Fig 2c

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.