[논문 리뷰] How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning
이 논문은 다른 주의 마스킹 전략(인과적, 하이브리드, 양방향)이 단일 초점 디코더 LLM에서 학습된 사용자 표현에 어떤 영향을 미치는지 연구하고, 인과적에서 양방향 주의로의 전이를 최적화하기 위해 Gradient-Guided Soft Masking을 도입한다.
Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.
연구 동기 및 목표
- 실세계 데이터에서 사용자 표현을 학습할 때 인과적, 하이브리드, 양방향 주의 마스킹이 디코더-전용 LLM에 미치는 영향을 조사한다.
- 통합 대비 학습 프레임워크 안에서 마스킹 전략별 학습 안정성과 임베딩 품질을 평가한다.
- 인과적에서 양방향으로의 전이를 안정화하고 양방향 표현을 강화하기 위해 Gradient-Guided Soft Masking (GG-SM)을 제안한다.
- 알리페이 데이터를 이용한 9개의 산업용 사용자 인지 벤치마크에서 GG-SM의 효과를 입증한다.]
- method:[
- Objectively
- Research Questions
- Key Findings
- Table Headers
- Table Rows
제안 방법
- 인과적, 하이브리드, 양방향의 세 가지 마스킹 체계를 갖춘 디코더-전용 LLM용 통합 대비 학습 프레임워크.
- Gradient-Guided Soft Masking (GG-SM): 선형 양방향 스케줄러 이전의 워밍업 단계에서 미래 주의 가중치를 안내하는 기울기 기반 프리웜업.
- 두 소스 임베딩 데이터: (i) 과거 시퀀스를 미래 행동과 연결하는 규칙 기반 행동 궤적, (ii) hard-positive 마이닝 및 보정을 포함한 LLM-합성 QA 정렬.
- 모달리티별 인코더가 이질적인 사용자 신호를 가벼운 어댑터를 사용해 LLM 임베딩 공간으로 변환하고, 동일한 디코더-전용 LLM이 듀얼-타워 대비 학습을 위해 사용자 뷰와 답변을 처리한다.
- InfoNCE 기반 대비 목표로 배치 내 음수와 마스킹 기반 유사도 메커니즘을 갖춘 대비를 통해 오탐 음수를 줄인다.

실험 결과
연구 질문
- RQ1인과적, 하이브리드, 양방향 주의 마스크가 디코더-전용 LLM이 학습한 사용자 임베딩의 품질에 어떤 영향을 미치는가?
- RQ2인과적에서 양방향 주의로의 전이가 통합 학습 설정에서 학습 안정성과 표현 품질에 영향을 미치는가?
- RQ3기울기 기반 소프트 마스킹 워밍업이 스케줄러 전환만과 비교해 최적화 역학 및 최종 양방향 표현을 개선하는가?
- RQ4GG-SM으로 향상된 임베딩이 산업의 다양한 실제 사용자 인지 작업(9개 벤치마크)에서 다른 베이스라인과 비교해 어떻게 성능하는가?
주요 결과
| 콘서트 | 사용자 | MAU | 전환 | 파워 | 푸드 | 영화 | Achiev. | 물리적 | 평균 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Oracle | 0.5173 | 0.7219 | 0.9202 | 0.5642 | 0.7638 | 0.6561 | 0.6435 | 0.5415 | 0.5592 | 0.6542 |
| w/ Causal | 0.5716 | 0.8313 | 0.9669 | 0.6967 | 0.9678 | 0.8473 | 0.7922 | 0.6054 | 0.6589 | 0.7709 |
| w/ Hybrid | 0.5748 | 0.8311 | 0.9671 | 0.6951 | 0.9653 | 0.8520 | 0.7913 | 0.6056 | 0.6565 | 0.7710 |
| w/ Hybrid_gq | 0.5647 | 0.8382 | 0.9665 | 0.6945 | 0.9678 | 0.8528 | 0.7887 | 0.6044 | 0.6582 | 0.7706 |
| w/ Hybrid_mlp | 0.5750 | 0.8410 | 0.9667 | 0.6965 | 0.9649 | 0.8484 | 0.7886 | 0.6042 | 0.6608 | 0.7718 |
| w/ Bidirectional | 0.5707 | 0.8390 | 0.9673 | 0.6983 | 0.9671 | 0.8505 | 0.7906 | 0.6043 | 0.6607 | 0.7721 |
| w/ Scheduler | 0.5742 | 0.8419 | 0.9664 | 0.6973 | 0.9688 | 0.8540 | 0.7908 | 0.6056 | 0.6605 | 0.7733 |
| w/ GG-SM (Ours) | 0.5767 | 0.8438 | 0.9674 | 0.6978 | 0.9689 | 0.8554 | 0.7913 | 0.6078 | 0.6615 | 0.7745 |
- 양방향 마스킹이 통합 프레임워크에서 마스킹 체계 중 가장 높은 표현 품질을 제공한다.
- 인과적에서 양방향 마스킹으로의 전이 경로는 최적화 안정성과 임베딩 품질에 결정적으로 영향을 미친다.
- GG-SM은 인과적, 하이브리드 및 스케줄러 전용 베이스라인과 비교해 일관되게 학습 안정성과 최종 양방향 임베딩을 향상시킨다.
- GG-SM은 여러 범용 임베딩보다 더 높은 평균 AUC를 달성하고 9개 작업에서 다른 사용자 임베딩 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.