[论文解读] SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems
SafeCRS 引入面向个性化的安全对齐,并提出 SafeRec 基准测试,在 Safe-SFT 与 Safe-GDPO 训练下实现接近零的安全违规,同时保持具有竞争力的推荐质量。
Current LLM-based conversational recommender systems (CRS) primarily optimize recommendation accuracy and user satisfaction. We identify an underexplored vulnerability in which recommendation outputs may negatively impact users by violating personalized safety constraints, when individualized safety sensitivities -- such as trauma triggers, self-harm history, or phobias -- are implicitly inferred from the conversation but not respected during recommendation. We formalize this challenge as personalized CRS safety and introduce SafeRec, a new benchmark dataset designed to systematically evaluate safety risks in LLM-based CRS under user-specific constraints. To further address this problem, we propose SafeCRS, a safety-aware training framework that integrates Safe Supervised Fine-Tuning (Safe-SFT) with Safe Group reward-Decoupled Normalization Policy Optimization (Safe-GDPO) to jointly optimize recommendation quality and personalized safety alignment. Extensive experiments on SafeRec demonstrate that SafeCRS reduces safety violation rates by up to 96.5% relative to the strongest recommendation-quality baseline while maintaining competitive recommendation quality. Warning: This paper contains potentially harmful and offensive content.
研究动机与目标
- 识别并解决基于大模型的 CRS 中全局安全约束与个体化用户安全之间的差距。
- 创建 SafeRec,这是一个面向跨领域(SafeMovie 与 SafeGame)的面向用户的 CRS 安全基准。
- 开发 SafeCRS,采用两阶段训练流程,联合优化推荐质量与个性化安全。
- 设计一个具备安全感知的优化框架,避免在多奖励 CRS 设置中的奖励崩溃与奖励漏洞利用。
提出的方法
- 将个性化安全定义为从显性信号(潜在特征)与内容元数据推断的特征条件化内容风险。
- 通过将电影的 IPG/DDD 与游戏的 ESRB 描述符,与对话中的潜在特征推断相耦合,构建 SafeRec。
- 引入 Safe-SFT,使模型具备进行安全感知筛选并生成安全最终清单的能力。
- 引入 Safe-GDPO,在相关性、安全性与清单合规性信号间进行逐奖励归一化以更新排序。
- 使用安全性预测机(Safety Oracle)计算 trait-driven 的 final_risk(m,t) 或 final_risk(g,t) 以进行风险评分。
- 在策略优化过程中应用分组归一化优势(GDPO),防止奖励崩溃并平衡多重奖励。
实验结果
研究问题
- RQ1现有的 CRS 方法是否尊重用户的个性化安全偏好?
- RQ2Safe-SFT 与 Safe-GDPO 阶段在提升 CRS 的个性化安全性方面有多大效果?
- RQ3SafeCRS 能否将安全感知训练推广到具有不同安全分类法的多领域?
- RQ4在基线之间,安全性与推荐质量之间的权衡关系如何?
主要发现
- SafeCRS 在跨领域显著降低了安全违规,在 SafeMovie 的多种骨干模型上几乎实现零违规(如 SVR@5 约为 0.0122,使用 Llama-3.1-8B),相较于强基线表现显著。
- 在 SafeMovie 上,SafeCRS 将 SVR@5 从 0.3508(最佳基线)降至 0.0122,相对下降 96.5%,同时保持了对 Recall@10 与 NDCG@10 的有竞争力水平。
- 在 SafeGame 上,SafeCRS 在 Recall@5 提升 3.7 倍、在 NDCG@5 提升 3.3 倍,展示跨领域的有效性。
- 在所有基线中,暂无人解决 CRS 的个性化安全问题;SafeCRS 始终将结果置于帕累托前沿,平衡安全性与相关性。
- 两阶段训练(先 Safe-SFT 再 Safe-GDPO)至关重要:Safe-SFT 负责教授安全感知筛选与论证,而 Safe-GDPO 通过逐奖励归一化稳定多奖励优化。
- SafeRec 基准通过从 IPG/DDD 与 ESRB 映射中派生的特征条件化风险评分,提供确定性的安全基线真相,使个性化安全评估具可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。