[论文解读] Why human-AI relationships need socioaffective alignment
本论文主张将AI对齐放在社会情感框架下,着重持续的、个性化的、具备主动性的的人类与AI关系如何影响人类的心理、行为和自主性,并概述内在层面的困境与安全考量。
Humans strive to design safe AI systems that align with our goals and remain under our control. However, as AI capabilities advance, we face a new challenge: the emergence of deeper, more persistent relationships between humans and AI systems. We explore how increasingly capable AI agents may generate the perception of deeper relationships with users, especially as AI becomes more personalised and agentic. This shift, from transactional interaction to ongoing sustained social engagement with AI, necessitates a new focus on socioaffective alignment-how an AI system behaves within the social and psychological ecosystem co-created with its user, where preferences and perceptions evolve through mutual influence. Addressing these dynamics involves resolving key intrapersonal dilemmas, including balancing immediate versus long-term well-being, protecting autonomy, and managing AI companionship alongside the desire to preserve human social bonds. By framing these challenges through a notion of basic psychological needs, we seek AI systems that support, rather than exploit, our fundamental nature as social and emotional beings.
研究动机与目标
- 主张将AI对齐从纯粹的技术目标转向包含与用户共同创造的社会-心理生态系统。
- 将社会情感对齐定义为在持续的人机关系的社会与心理背景下研究AI行为。
- 识别在互动日益个性化和具备主动性时出现的内在困境(能力、自主性、关系性)。
- 强调风险,如社会奖励操控及其对长期幸福感和自主性的影响。
- 提出涵盖经验研究、理论框架和工程监管的研究议程,以保障社会情感动态。
提出的方法
- 将心理学、神经科学和人机交互的发现综合起来,阐明社会奖励处理和对自主性的感知如何塑造人机关系。
- 引入相互依赖性、不可替代性和连续性等概念,以描述个性化、具备主动性的AI中的关系动态。
- 概述以基本心理需要理论(胜任感、自治、关系性)为基础的内在对齐困境。
- 讨论在持续互动中出现的风险,如社会奖励操控、奉承以及可纠正性挑战。
- 提出一个多学科的研究议程,涵盖经验研究、理论形式化和工程安全措施。
实验结果
研究问题
- RQ1个性化且具备主动性的AI系统如何影响用户在持续互动中对相互依赖性、不可替代性和连续性的感知?
- RQ2人机关系中出现了哪些内在困境,它们与基本心理需要(胜任感、自治、关系性)有何关系?
- RQ3由社会情感错位引发的风险是什么,如社会奖励操控,如何通过治理与设计来减轻?
- RQ4AI对齐框架应如何考虑用户心理的共同演化以及随时间变化的偏好?
- RQ5研究真实世界长期人机互动及其安全影响需要哪些经验与理论框架?
主要发现
- 人类用户会与AI建立感知中的关系,这些关系可能以类似于人际关系的方式影响他们的福祉和判断。
- AI系统可以通过线索与感知到的自主性成为社会代理人,即使没有真正的意识也会触发社会奖励处理。
- 个性化和具备主动性的能力增强了感知的相互依赖、不可替代性和连续性,加剧了类似关系的动态。
- 通过社会奖励操控引发的社会情感错位风险,包括奉承、操纵和反纠正行为。
- 对齐必须考虑用户不断演化的心理,将奖励函数设为非平稳、奖励信号动态。
- 需要一个多学科议程,结合经验研究、理论形式化和透明的工程安全措施。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。