[論文レビュー] Visually Explainable Recommendation
本論文は、画像領域への注意を利用して視覚的説明をパーソナライズする視覚的に説明可能な推奨を導入し、マルチタスクフレームワークでレビュー信号を組み込んだ拡張(VECFとRe-VECF)を提示します。
Images account for a significant part of user decisions in many application scenarios, such as product images in e-commerce, or user image posts in social networks. It is intuitive that user preferences on the visual patterns of image (e.g., hue, texture, color, etc) can be highly personalized, and this provides us with highly discriminative features to make personalized recommendations. Previous work that takes advantage of images for recommendation usually transforms the images into latent representation vectors, which are adopted by a recommendation component to assist personalized user/item profiling and recommendation. However, such vectors are hardly useful in terms of providing visual explanations to users about why a particular item is recommended, and thus weakens the explainability of recommendation systems. As a step towards explainable recommendation models, we propose visually explainable recommendation based on attentive neural networks to model the user attention on images, under the supervision of both implicit feedback and textual reviews. By this, we can not only provide recommendation results to the users, but also tell the users why an item is recommended by providing intuitive visual highlights in a personalized manner. Experimental results show that our models are not only able to improve the recommendation performance, but also can provide persuasive visual explanations for the users to take the recommendations.
研究の動機と目的
- 推奨におけるパーソナライズ性と説明可能性を向上させるために、製品画像の活用を動機づける。
- ユーザーにパーソナライズされた画像領域を強調する注意ベースの視覚的協調フィルタリングモデル(VECF)を開発する。
- モデルをテキストレビューで強化し、精度と説明を向上させるレビュー対応版(Re-VECF)を作成する。
- 提案モデルがTop-N推奨性能を改善し、説得力のある視覚的説明を生成できることを示す。
- 共同ラベル付きデータセットをリリースし、視覚的説明の定性的/定量的分析を提供する。
提案手法
- 事前学習済みCNN(VGG-19)を用いて製品画像から領域特徴を抽出し、1Imageあたり196の領域ベクトルを得る。
- ユーザー i およびアイテム j に条件づけられたグローバル画像特徴 IMAGE_j を形成するために領域レベルの注意重み alpha を計算する。
- アイテム潜在埋め込み q_j と IMAGE_j を結合して q_j^* を形成し、適切な PREDICT 関数(例: 内積のシグmoid)で y^ij を予測する。
- 正則化付き二値交差エントロピー loss で学習し、未観測の相互作用にはネガティブサンプリングを用いる。
- VECF を GRU ベースのテキストモジュールで拡張し、レビュー w_ij が生成/予測されるようにし、IMAGE_j を GRU のゲートに組み込んで Re-VECF を形成する。
- Re-VECF では、語生成のための画像ベースとテキストベースの信号をバランスさせるゲーティング機構を導入し、推奨とレビュー生成(ROUGE)をマルチタスク目的として共同最適化できるようにする。
実験結果
リサーチクエスチョン
- RQ1RQ1 提案モデルはベースラインと比較して Top-N 推奨でどれだけ良い性能を示すか?
- RQ2RQ2 ベースラインと比較して、モデルはユーザーレビューをどれだけ良く予測できるか(ROUGE)?
- RQ3RQ3 強調表示された画像領域と注意重みによる視覚的説明の提供において、モデルはどれだけ効果的か?
主な発見
- 視覚的に意識したモデル(VECFとRe-VECF)は、Top-N 指標で BPR ベースのベースラインおよび単一モダリティモデルを上回る。
- 視覚特徴とテキストレビューの両方を取り入れると、基準の中で最高の性能を発揮する(JRL が強力な競合として)。
- マルチタスクの Re-VECF フレームワークは推奨品質と生成される視覚的説明の品質(注意を通じて)およびレビュー信号の品質を向上させる。
- 学習済みの注意重みに従って商品画像の関連領域を拡大表示することで、直感的で個別化された視覚的説明の生成を可能にする。
- Amazon Clothing, Shoes and Jewelry データセットでの実験は、Top-N 指標の改善と、ユーザー/アイテムカテゴリ全体での ROUGE スコアの競争力を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。