[論文レビュー] Is ChatGPT a Good Recommender? A Preliminary Study
本論文はChatGPTを一般的なレコメンダーとして扱い、評価予測は高い一方、連続/直接的推奨は弱い;人間評価は説明と要約においてChatGPTを支持し、プロンプトベースの制限が顕著。
Recommendation systems have witnessed significant advancements and have been widely used over the past decades. However, most traditional recommendation methods are task-specific and therefore lack efficient generalization ability. Recently, the emergence of ChatGPT has significantly advanced NLP tasks by enhancing the capabilities of conversational models. Nonetheless, the application of ChatGPT in the recommendation domain has not been thoroughly investigated. In this paper, we employ ChatGPT as a general-purpose recommendation model to explore its potential for transferring extensive linguistic and world knowledge acquired from large-scale corpora to recommendation scenarios. Specifically, we design a set of prompts and evaluate ChatGPT's performance on five recommendation scenarios. Unlike traditional recommendation methods, we do not fine-tune ChatGPT during the entire evaluation process, relying only on the prompts themselves to convert recommendation tasks into natural language tasks. Further, we explore the use of few-shot prompting to inject interaction information that contains user potential interest to help ChatGPT better understand user needs and interests. Comprehensive experimental results on Amazon Beauty dataset show that ChatGPT has achieved promising results in certain tasks and is capable of reaching the baseline level in others. We conduct human evaluations on two explainability-oriented tasks to more accurately evaluate the quality of contents generated by different models. And the human evaluations show ChatGPT can truly understand the provided information and generate clearer and more reasonable results. We hope that our study can inspire researchers to further explore the potential of language models like ChatGPT to improve recommendation performance and contribute to the advancement of the recommendation systems field.
研究の動機と目的
- ファインチューニングなしで、ChatGPTが言語モデルの知識を推薦タスクへ移転できるかを評価する。
- 推薦タスクを自然言語タスクへ変換するためのタスク特化プロンプトを設計する。
- 実データセット上でChatGPTを従来のベースラインと比較する。
- 少数ショット promptingを探求してユーザーの相互作用シグナルを注入する。
- 人間の判断による説明可能性と要約機能を評価する。
提案手法
- 5つのタスクに対して、タスク説明、振る舞いの注入、フォーマット指示子を含むプロンプトを設計する。
- ファインチューニングなしでゼロショットおよび少数ショット設定でgpt-3.5-turboを用いてタスクを実行する。
- フォーマットを強制し、連続出力をデータセット項目へマッピングする出力整形モジュールを実装する。
- 連続タスクでChatGPTの予測をデータセット項目に一致させるため、類似度ベースのマッピングを用いる。
- Amazon BeautyサブセットでRMSE、MAE、HR@k、NDCG@k、BLEU@k、ROUGE@k指標と説明および要約の人間評価を用いて評価する。
- 評価、連続、直接、説明、要約タスクにわたる従来のベースライン群と比較する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 最先端のベースラインモデルと比べて、タスクカテゴリ全体でChatGPTはどの程度の性能を示すか?
- RQ2RQ2: 少数ショット promptingがChatGPTの性能に与える影響はどの程度か?
- RQ3RQ3: 説明生成とレビュー要約を、品質を適切に捉えるようにどのように評価すべきか?
主な発見
- 少数ショットプロンプトは評価予測でMF/MLPベースラインを上回るのに役立つ。
- 連続・直接推奨では古典的手法と比べてChatGPTの性能は低い。
- ゼロショット設定では連続・直接タスクで性能が低く、少数ショットの利得は限定的。
- 人間評価では、客観指標が遅れていてもChatGPTはベースラインよりも明確で妥当な説明を提供することが示唆される。
- レビュー要約について、いくつかのケースでChatGPTはベースラインや真値より人間評価者に支持され、指標と品質のギャップを浮き彫りにしている。
- 本研究は、タスクにより関連した訓練データの増強やレコメンデーション文脈における言語モデルのガイダンス改善による潜在的な向上を指摘している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。