[논문 리뷰] Visually Explainable Recommendation
본 논문은 이미지 영역에 대한 주의(attention)를 이용하여 시각적으로 설명 가능한 추천을 제시하고, 이를 다중 작업 프레임워크(VECF 및 Re-VECF)에서 리뷰 신호로 확장한다.
Images account for a significant part of user decisions in many application scenarios, such as product images in e-commerce, or user image posts in social networks. It is intuitive that user preferences on the visual patterns of image (e.g., hue, texture, color, etc) can be highly personalized, and this provides us with highly discriminative features to make personalized recommendations. Previous work that takes advantage of images for recommendation usually transforms the images into latent representation vectors, which are adopted by a recommendation component to assist personalized user/item profiling and recommendation. However, such vectors are hardly useful in terms of providing visual explanations to users about why a particular item is recommended, and thus weakens the explainability of recommendation systems. As a step towards explainable recommendation models, we propose visually explainable recommendation based on attentive neural networks to model the user attention on images, under the supervision of both implicit feedback and textual reviews. By this, we can not only provide recommendation results to the users, but also tell the users why an item is recommended by providing intuitive visual highlights in a personalized manner. Experimental results show that our models are not only able to improve the recommendation performance, but also can provide persuasive visual explanations for the users to take the recommendations.
연구 동기 및 목표
- 추천에서 개인화성과 설명가능성을 개선하기 위해 제품 이미지를 활용하려는 동기를 제시한다.
- 사용자에게 개인화된 이미지 영역을 강조하는 주의(attention) 기반 시각적 협업 필터링 모델(VECF)을 개발한다.
- 텍스트 리뷰를 도입하여 정확도와 설명력을 향상시키는 리뷰 활성화 버전(Re-VECF)을 개발한다.
- 제안된 모델이 Top-N 추천 성능을 향상시키고 설득력 있는 시각적 설명을 생성할 수 있음을 보여준다.
- 집합적으로 라벨링된 데이터셋을 공개하고 시각적 설명에 대한 질적/양적 분석을 제공한다.
제안 방법
- 사전 학습된 CNN(VGG-19)을 사용하여 상품 이미지에서 영역별 특징을 추출하고 이미지당 196개의 영역 벡터를 얻는다.
- 사용자 i 및 아이템 j에 조건화된 글로벌 이미지 특징 IMAGE_j를 형성하기 위해 영역 단위의 주의 가중치 alpha를 계산한다.
- 아이템 잠재 임베딩 q_j와 IMAGE_j를 병합하여 q_j^*를 형성하고, 적절한 PREDICT 함수(예: 내적의 시그모이드)에 의해 y^ij를 예측한다.
- 정규화를 포함한 이진 교차 엔트로피 손실로 학습하고, 관찰되지 않은 상호작용에는 음수 표본추출을 사용한다.
- VECF를 GRU 기반 텍스트 모듈로 확장하여 리뷰 w_ij를 생성/예측하고, GRU 게이트에 IMAGE_j를 통합하여 Re-VECF를 형성한다.
- Re-VECF에서 이미지 기반 신호와 텍스트 기반 신호의 균형을 맞추는 게이팅 메커니즘을 도입하여 단어 생성을 수행하고, 추천과 리뷰 생성을 다중 작업 목표(ROUGE)로 공동 최적화할 수 있게 한다.
실험 결과
연구 질문
- RQ1RQ1 제안된 모델이 Baseline과 비교하여 Top-N 추천에서 얼마나 잘 작동하는가?
- RQ2RQ2 Baseline과 비교하여 리뷰를 얼마나 잘 예측하는가(ROUGE)?
- RQ3RQ3 하이라이트된 이미지 영역과 주의 가중치를 통해 시각적 설명을 제공하는 모델의 효과는 어느 정도인가?
주요 결과
- 시각적으로 인지 가능한 모델(VECF 및 Re-VECF)은 Top-N 지표에서 BPR 기반 Baselines 및 단일 모듈 모델보다 우수하다.
- 시각적 특징과 텍스트 리뷰를 모두 도입하면 Baseline 중에서 최고의 성능을 달성하며(JRL이 강력한 경쟁자임).
- 다중 작업 Re-VECF 프레임워크는 추천 품질과 생성된 시각적 설명(주목에 의한) 및 리뷰 신호의 품질을 모두 향상시킨다.
- 모델은 학습된 주의 가중치에 따라 아이템 이미지의 관련 영역을 확대하여 직관적이고 개인화된 시각적 설명을 생성할 수 있게 한다.
- Amazon Clothing, Shoes and Jewelry 데이터셋에서 실험을 통해 Top-N 지표가 향상되고 사용자/아이템 범주 전반에서 리뷰 예측에 대한 ROUGE 점수도 경쟁력 있게 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.