[논문 리뷰] Predicting online user behaviour using deep learning algorithms
이 논문은 전자상거래에서 클릭스트림 데이터로부터 온라인 사용자 구매 의도를 예측하기 위해 딥 뉴럴 네트워크(DBN)와 스택드 노이즈 제거 오토인코더(SdA)를 사용하는 딥 러닝 프레임워크를 제안한다. 3%의 구매 세션을 가진 극도로 불균형한 데이터셋에서 최신 기술 성능(AUC 0.86)을 달성하며, 로지스틱 회귀 및 랜덤 포레스트와 같은 전통적 모델들을 능가한다.
We propose a robust classifier to predict buying intentions based on user behaviour within a large e-commerce website. In this work we compare traditional machine learning techniques with the most advanced deep learning approaches. We show that both Deep Belief Networks and Stacked Denoising auto-Encoders achieved a substantial improvement by extracting features from high dimensional data during the pre-train phase. They prove also to be more convenient to deal with severe class imbalance.
연구 동기 및 목표
- 고차원적이고 희소한 클릭스트림 데이터에 딥 러닝을 활용하여 전자상거래에서의 구매 의도 예측을 향상시키기 위해.
- 실제 전자상거래 데이터셋에서 흔히 발생하는 심각한 클래스 불균형 문제(구매 세션 비율 3%)를 다루기 위해.
- 특히 DBN과 SdA와 같은 딥 러닝 아키텍처가 로지스틱 회귀 및 랜덤 포레스트와 같은 전통적 기계학습 모델에 비해 얼마나 효과적인지 평가하기 위해.
- 희소하고 고차원적인 사용자 행동 데이터에 대해 일반화 능력과 성능 향상에 기여하는 비지도 사전 훈련의 역할을 조사하기 위해.
- 베이지안 최적화를 사용하여 검증 데이터에서 최대 AUC 성능을 내기 위해 딥 네ural 네트워크의 하이퍼파라미터를 최적화하기 위해.
제안 방법
- 100만 개의 세션과 25,000종의 제품 유형을 포함한 대규모 전자상거래 플랫폼의 클릭스트림 데이터를 사용하였다.
- 사용자 세션을 집계하고, 항목 검토 시간을 계산하며, word2vec(50D)를 통해 항목 고유의 특성과 텍스트 임베딩을 클릭 이벤트에 통합함으로써 데이터 전처리를 수행하였다.
- 비음수 행렬 분해(NMF)를 사용하여 차원을 감소시키고, 페이지뷰의 85%와 구매의 92%를 차지하는 257개의 고-traffik 제품 카테고리에 집중하였다.
- 원시적인 고차원 입력에서 계층적 특징을 추출하기 위해 딥 뉴럴 네트워크(DBN)와 스택드 노이즈 제거 오토인코더(SdA)를 사용하여 비지도 사전 훈련을 적용하였다.
- 백프로파게이션을 사용하여 소프트맥스 출력 레이어로 딥 네트워크를 피지컬 튜닝하였으며, 베이지안 최적화를 통해 20회의 시행을 거쳐 하이퍼파라미터(학습률, 드롭아웃, L2 정규화 등)를 최적화 하였다.
- Keras와 Theano 백엔드를 사용하여 구현하였으며, 여러 데이터셋에서 모델을 평가하였고, 하이퍼파라미터는 데이터셋 3에서 튜닝하여 나머지 데이터셋에 동일하게 적용하였다.
실험 결과
연구 질문
- RQ1DBN과 SdA와 같은 딥 러닝 모델이 희소한 클릭스트림 데이터에서 온라인 구매 의도를 예측하는 데 있어 전통적 기계학습 모델(예: 로지스틱 회귀, 랜덤 포레스트)을 능가할 수 있는가?
- RQ2DBN과 SdA와 같은 비지도 사전 훈련 기법은 레이블이 제한된 구매 이벤트가 있는 극도로 불균형한 전자상거래 데이터셋에서 성능 향상에 얼마나 효과적인가?
- RQ3이러한 맥락에서 딥 네트워크의 최적 AUC 성능을 내기 위한 하이퍼파라미터 설정(학습률, 드롭아웃, L2 등)은 무엇인가?
- RQ4제품 설명에 대해 word2vec 임베딩을 사용할 경우 모델의 예측 능력이 향상되는가?
- RQ5학습 데이터 크기가 증가함에 따라 모델 성능은 어떻게 변화하는가? 그리고 확장성과 학습 효율성에 대한 제약은 무엇인가?
주요 결과
- 스택드 노이즈 제거 오토인코더(SdA)는 데이터셋 6에서 AUC 0.86을 기록하여 DBN(0.84) 및 기타 전통적 모델들을 크게 능가하였다.
- DBN과 SdA는 고차원적이고 희소한 데이터를 처리하는 데 있어 로지스틱 회귀 및 랜덤 포레스트와 같은 전통적 모델보다 뚜렷한 성능 향상을 보였다.
- DBN과 SdA에서의 비지도 사전 훈련은 특히 구매 세션 비율이 3%에 불과한 데이터 부족 상황에서 더 나은 특징 추출과 일반화 능력을 가능하게 하였다.
- 베이지안 최적화를 통해 딥 네트워크의 하이퍼파라미터를 효과적으로 튜닝하였으며, 특히 ReLU 기반 네트워크에서 드롭아웃과 L2 정규화가 가장 효과적인 것으로 나타났다.
- 더 큰 데이터로 갈수록 딥 러닝 모델과 전통적 모델 간의 성능 격차가 커지며, 이는 딥 아키텍처의 확장성 우수성을 시사한다.
- 높은 성능에도 불구하고, 모델의 병렬 처리 효율성이 제한적이었으며, 계산 비용과 데이터의 희소성로 인해 실시간 배포에 도전 과제가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.