QUICK REVIEW

[논문 리뷰] Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

Vincent Conitzer, Rachel A. Freedman|arXiv (Cornell University)|2024. 04. 16.

Ethics and Social Impacts of AI인용 수 7

한 줄 요약

본 논문은 AI 정렬을 위한 다양한 인간 피드백을 집계하기 위해 사회선택 이론을 적용하는 것을 주장하고, representativeness, fairness, 및 모델 미세 조정의 일관성을 다루기 위해 RLCHF (Reinforcement Learning from Collective Human Feedback) 및 시뮬레이션된 집단 의사결정을 제안한다.

ABSTRACT

Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.

연구 동기 및 목표

AI 정렬을 위한 인간 피드백의 차이를 해결하기 위해 사회선택 이론 도입의 필요성에 동기를 부여한다.
피드백을 제공해야 하는 주체와 이를 어떻게 집계할지에 대한 핵심 질문을 식별한다.
RLHF 및 모델 미세 조정에 다양한 입력을 도입하기 위한 원칙적 방법을 제안한다.
안전하고 윤리적인 AI를 위한 새로운 사회선택 도구가 필요한 영역을 강조한다.]
method: [" unrepresentative 데이터와 다양한 인간 의사결정으로 인한 한계로부터 RLHF와 CAI 접근법을 검토한다."," AI 정렬 과제에 중요한 사회선택 개념(예: 집계 규칙, 복지 함수, 대표 의회)을 매핑한다."," 두 가지 방법론적 경로를 제안한다: RLCHF(학습 전에 인간 피드백을 집계)와 시뮬레이션된 집단 의사결정(피드백 처리 중 또는 이후 그룹 선택을 시뮬레이션)으로 제시한다."," 피드백을 순위, 평가 또는 분포로 형식화하고 이를 보상 신호나 지도 학습 타깃으로 변환하는 방법을 설명한다."," 평가자 특성 및 다양한 입력이 사회적 복지 또는 단일 승자/다중 승자 규칙을 통해 어떻게 통합될 수 있는지 논의한다."," 독립성(clones의 독립성)과 전략적 투표와 같은 개념이 AI 피드백 맥락에 적용될 수 있는 가능성에 대해 논의한다.]
research_questions: ["AI 정렬의 대표성을 보장하기 위해 피드백을 제공해야 하는 주체는 누구인가?", "다양한 인간 판단을 어떤 방식으로 집계하여 모델 행동을 안내하되 사이클, 독재 등 병리적 결과를 초래하지 않도록 할 수 있는가?", "원칙적 집계와 강건한 학습 결과를 가장 잘 지원하는 피드백 형식은 무엇인가?", "사회선택 개념을 RLHF 파이프라인에 어떻게 통합하거나 추론 시 결정에 정보를 제공하는 데 사용할 수 있는가?", "AI 정렬에 가장 관련성이 높은 전통적 사회선택 개념은 무엇이며 그 이유는 무엇인가?]
key_findings: ["RLHF는 대표성 부족 데이터 및 인간 다양성의 불완전한 모델링과 같은 한계에 직면해 있다."," 사회선택 이론은 피드백에 기여하는 사람의 선정, 그들이 제공하는 피드백의 내용, 그리고 이를 어떻게 집계할지에 대해 원칙적 도구를 제공한다."," 구체적인 두 가지 의제: RLCHF(학습에서의 집단 피드백 집계)와 시뮬레이션된 집단 의사결정(추론 시점 또는 학습 시점의 집단 선택) 제안한다."," diverse 포맷의 피드백을 공통 표현(효용, 점수, 또는 순위)으로 변환해 집계 가능하게 한다."," 평가자 특성은 보상 신호를 개인화하고 다양화하여 이해관계자 다양성과의 정렬을 개선할 수 있다."," 이 논문은 AI 정렬 맥락에서 가장 관련성이 높은 사회선택 개념(예: Clone Independence, 전략적 투표)이 무엇인지 연구의 필요성을 강조한다.]
table_headers: []
table_rows: []}---?

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.