[논문 리뷰] How Well Does Generative Recommendation Generalize?
생성 추천(GR) 모델은 일반화 관련 인스턴스를 더 잘 다루는 반면 아이디 기반 모델은 기억화에 뛰어나다; 토큰-수준 기억화가 GR 일반화의 상당 부분을 설명하고 적응적 앙상블이 전체 성능을 향상시킨다.
A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.
연구 동기 및 목표
- GR 모델이 전반적인 성능을 넘어서 전통적인 아이디 모델보다 일반화에 더 잘하는지 조사.
- 테스트 인스턴스를 아이템 전이 패턴에 따라 기억화 vs 일반화로 분류.
- 토큰-수준 전이(접두사 기억화)가 GR 모델의 아이템-수준 일반화를 설명하는 방법 분석.
- GR와 아이디-모델을 여러 실제 데이터 세트에서 평가하여 범주별 성능을 정량화.
- 인스턴스별로 GR와 아이디 모델을 결합하는 기억화 인식 앙상블 전략 제안.
제안 방법
- 기억화를 학습 데이터에서 1-홉 아이템 전이 [i_{t-1} -> i_t]가 관측되었다고 정의.
- 일반화를 1-홉 및 다홉 성장 범주(추이성, 대칭성, 2차 대칭성, 치환 가능성)로 정의.
- 두 모델 벤치마크: TIGER (GR with semantic IDs)와 SASRec (아이템-ID 기반).
- 테스트 데이터를 기억화, 일반화, 미분류 하위 집합으로 분할하고 각 성능 비교.
- 토큰-수준 접두사-n-그램 기억화 프레임워크를 도입하여 토큰 기억화를 통해 아이템-수준 일반화를 설명.
- 접두사 n-그램 카운트와 시맨틱-ID 구성으로 토큰-수준 기억화가 일반화와 어떻게 연관되는지 연구.
- MSP 기반 기억화 지표를 사용하여 인스턴스별로 TIGER vs. SASRec를 가중하는 적응형 앙상블 제안.

실험 결과
연구 질문
- RQ1GR 모델이 일반화가 필요한 데이터 인스턴스에서 아이템-ID 모델보다 더 잘 수행하지만 기억화 기반 인스턴스에서는 저성능하는가?
- RQ2GR의 아이템-수준 일반화가 시맨틱 ID 내 토큰-수준 기억화로 설명될 수 있는가?
- RQ3다른 일반화 유형(추이성, 대칭성, 치환 가능성)과 홉 수가 모델 성능에 어떤 영향을 미치는가?
- RQ4기억화 지표를 활용한 적응형 앙상블이 전반적인 추천 정확도를 향상시킬 수 있는가?
주요 결과
- GR 모델은 일반화 관련 하위집합에서 대개 SASRec보다 우수.
- SASRec는 기억화 관련 하위집합에서 TIGER보다 우수, 패러다임 간 보완적 강점.
- 대부분의 테스트 인스턴스는 기억화보다는 일반화에 의존하며 미분류 사례는 <10%.
- GR의 아이템-수준 일반화의 큰 분량은 시맨틱 IDs 내의 토큰-수준 접두사 기억화로 환원된다.
- 토큰 기억화 비율을 늘리면 일반화가 향상되지만 아이템 수준의 기억화는 희석될 수 있다.
- MSP 기반 적응형 앙상블이 인스턴스별로 TIGER와 SASRec의 가중치를 부여하여 전체 성능 향상.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.