[論文レビュー] SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems
SafeCRS は LLM ベースの対話型レコメンドシステム向けに個別の安全性適合を導入し、SafeRec ベンチマークを提案。 Safe-SFT と Safe-GDPO 訓練を通じて競争力のある推奨品質を維持しつつ、安全違反をほぼゼロに近づける。
Current LLM-based conversational recommender systems (CRS) primarily optimize recommendation accuracy and user satisfaction. We identify an underexplored vulnerability in which recommendation outputs may negatively impact users by violating personalized safety constraints, when individualized safety sensitivities -- such as trauma triggers, self-harm history, or phobias -- are implicitly inferred from the conversation but not respected during recommendation. We formalize this challenge as personalized CRS safety and introduce SafeRec, a new benchmark dataset designed to systematically evaluate safety risks in LLM-based CRS under user-specific constraints. To further address this problem, we propose SafeCRS, a safety-aware training framework that integrates Safe Supervised Fine-Tuning (Safe-SFT) with Safe Group reward-Decoupled Normalization Policy Optimization (Safe-GDPO) to jointly optimize recommendation quality and personalized safety alignment. Extensive experiments on SafeRec demonstrate that SafeCRS reduces safety violation rates by up to 96.5% relative to the strongest recommendation-quality baseline while maintaining competitive recommendation quality. Warning: This paper contains potentially harmful and offensive content.
研究の動機と目的
- グローバルな安全性制約と LLM ベース CRS における個別ユーザーの安全性とのギャップを特定し対処する。
- SafeRec を作成する。 SafeRec は CRS のドメイン横断でユーザー中心の安全性ベンチマーク(SafeMovie および SafeGame)である。
- 推奨品質と個別の安全性を共同最適化する二段階訓練パイプラインを備えた SafeCRS を開発する。
- マルチリワード CRS 設定における報酬崩壊や報酬ハッキングを回避する安全配慮型最適化フレームワークを設計する。
提案手法
- 個別の安全性を、明示的信号(潜在的特性)とコンテンツメタデータから推定される特性条件付きリスクとして定義する。
- 映画には IPG/DDD、ゲームには ESRB の記述子と対話からの潜在特性推定を組み合わせて SafeRec を構築する。
- Safe-SFT を導入してモデルに安全性を考慮したフィルタリングと安全な最終リストの生成を訓練する。
- Safe-GDPO を導入して関連性、安全性、リスト適合性の各リワードを分布正規化してランキングを更新する。
- 特性駆動リスクスコアリングの final_risk(m,t) または final_risk(g,t) を計算するセーフティオラクルを使用する。
- グループ正規化アドバンテージ(GDPO)を適用して報酬崩壊を防ぎ、ポリシー最適化中の複数の報酬をバランスさせる。
実験結果
リサーチクエスチョン
- RQ1既存の CRS 手法はユーザー固有の安全性の嗜好を尊重しているか?
- RQ2Safe-SFT および Safe-GDPO の段階は CRS における個別の安全性の向上にどの程度効果的か?
- RQ3SafeCRS は異なる安全性分類を持つ複数ドメインへ安全性意識訓練を一般化できるか?
- RQ4ベースライン間で推奨品質に対する安全性のパフォーマンスのトレードオフはどうなるか?
主な発見
- SafeCRS はドメインを跨いで安全性違反を著しく低減し、SafeMovie ではいくつかのバックボーンで SVR がほぼゼロに近づく(例:SVR@5 ≈ 0.0122、Llama-3.1-8B)一方で強力なベースラインと比較可能な推奨品質を維持する。
- SafeMovie では SafeCRS が SVR@5 を 0.3508 から 0.0122 に低減し、相対的には 96.5% の削減を達成しつつ Recall@10 と NDCG@10 は競争力を維持する。
- SafeGame では SafeCRS が Recall@5 で最良ベースラインを 3.7 倍、NDCG@5 で 3.3 倍上回り、クロスドメインでの効果を示す。
- ベースライン間で CRS における個別の安全性を扱うものはなく、SafeCRS は常にパレート前線上に結果を配置し、安全性と関連性のバランスを取っている。
- 二段階訓練(Safe-SFT の後に Safe-GDPO) は不可欠である:Safe-SFT は安全性を考慮したフィルタリングと正当化を教え、Safe-GDPO はリワード正規化を介して多報酬最適化を安定化させる。
- SafeRec ベンチマークは IPG/DDD と ESRB mappings から導出された特性条件付きリスクスコアを用いて決定論的な安全性のグラウンドトゥルースを提供し、個別の安全性の評価を大規模に可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。