QUICK REVIEW

[論文レビュー] ChatGPT for Conversational Recommendation: Refining Recommendations by Reprompting with Feedback

Kyle Spurlock, Cagla Acun|arXiv (Cornell University)|Jan 7, 2024

Topic Modeling被引用数 5

ひとこと要約

この論文は、出力を洗練させるためのフィードバックを用いた反復的な再指示付与により、ChatGPTをトップ-Nの対話型レコメンダーとして評価し、人気バイアスを研究する。再指示付与は関連性を高め、プロンプト設計によってバイアスを緩和できることを示している。

ABSTRACT

Recommendation algorithms have been pivotal in handling the overwhelming volume of online content. However, these algorithms seldom consider direct user input, resulting in superficial interaction between them. Efforts have been made to include the user directly in the recommendation process through conversation, but these systems too have had limited interactivity. Recently, Large Language Models (LLMs) like ChatGPT have gained popularity due to their ease of use and their ability to adapt dynamically to various tasks while responding to feedback. In this paper, we investigate the effectiveness of ChatGPT as a top-n conversational recommendation system. We build a rigorous pipeline around ChatGPT to simulate how a user might realistically probe the model for recommendations: by first instructing and then reprompting with feedback to refine a set of recommendations. We further explore the effect of popularity bias in ChatGPT's recommendations, and compare its performance to baseline models. We find that reprompting ChatGPT with feedback is an effective strategy to improve recommendation relevancy, and that popularity bias can be mitigated through prompt engineering.

研究の動機と目的

推奨システムでの直接的なユーザーとAIの相互作用を動機づけ、明示的なフィードバックを取り込む。
ChatGPTの対話的推奨能力を評価するパイプラインを開発する。
推奨を洗練させるための反復的フィードバックを伴うプロンプト設計を探る。
ChatGPTの推奨における人気バイアスとその緩和戦略を調査する。

提案手法

ChatGPTにアイテムを推奨させ、その後ユーザーフィードバックを用いて再指示付与する、厳密な評価パイプラインを構築する。
HetRec2011（MovieLensベース）を真値として用い、Wikipediaのコンテンツを用いて類似度計算用のアイテム埋め込みを拡張する。
HetRec2011のアイテムのコンテンツレベル全体で埋め込みを生成し、コサイン類似度を測定してアイテムの関連性を評価する。
最初のプロンプトを例とともに作成し、ゼロショット、少数ショット、CoTなどの prompting スタイルを変えて対話の影響を研究する。
ChatGPTの出力をアイテムタイトルに解析し、あいまいマッチ（正規化レーベンシュタイン類似度）で埋め込みへマッピングして評価する。
prior user interactions へのコサイン類似度を用いた評価式でアイテム関連度を推定し、分位数ベースの類似度フィルターを適用する。
再指示付与によってフィードバックを伝え、どの推奨が良い/良くないかを通知し、重複を避け、プロンプトを適宜更新する。
推奨を評価する指標として、Precision、nDCG、MAP、インラクチスト相似度（ILS）、カバレッジ、ノベルティ、そして新しい未一致比率（UR）を用いる。
ChatGPTの設定を、RandomやNMFベースのレコメンドモデルなどのベースラインと比較し、 RCBD（ランダム化完全ブロック設計）を用いて評価する。

実験結果

リサーチクエスチョン

RQ1RQ1: 大規模言語モデルにおける対話能力は推奨品質にどのような影響を与えるのか。
RQ2RQ2: 大規模言語モデルは通常のユースケース（トップ-N アイテムベース）で推奨をどの程度行えるのか。
RQ3RQ3: ChatGPTは推奨において人気バイアスを示すのか、プロンプト設計で緩和できるのか。

主な発見

アイテム埋め込みのコンテンツレベルが精度、nDCG、ILS、MAPに有意な影響を与える（Kruskall–Wallis検定で p < 0.01）。
コンテンツレベルのうち、レベル2〜3は類似性能で、レベル1より好まれ、レベル4はより識別的な類似度と質的に優れたアイテムマッチを提供する。
フィードバック付きの再指示付与は推奨の関連性を高める。最も良いとされた非-CoT設定は k=10、p=5、prompt_style=zero で、Variant全体で Prec=.611–.612、nDCG≈.624–.653、ILS≈.788–.791、MAP≈.638–.682を達成。
CoT prompting はILSを低下させる傾向があり、例示アイテムへの固定化を招く可能性がある。
ベースラインと比較して、ChatGPTの設定はRandomベースラインを上回り、対話的パイプラインが意味のある推奨能力を付与していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。