[논문 리뷰] What are human values, and how do we align AI to them?
이 논문은 도덕 그래프 엘리케이션(MGE)을 도입해 인간의 가치를 형식적 정렬 대상인 도덕 그래프로 엮고 조정하며, 미국에서 500명 규모의 사례 연구를 통해 합법성, 공정성, 견고성 등 여섯 가지 기준에 걸쳐 유망한 신뢰성과 강건성을 입증한다.
There is an emerging consensus that we need to align AI systems with human values (Gabriel, 2020; Ji et al., 2024), but it remains unclear how to apply this to language models in practice. We split the problem of "aligning to human values" into three parts: first, eliciting values from people; second, reconciling those values into an alignment target for training ML models; and third, actually training the model. In this paper, we focus on the first two parts, and ask the question: what are "good" ways to synthesize diverse human inputs about values into a target for aligning language models? To answer this question, we first define a set of 6 criteria that we believe must be satisfied for an alignment target to shape model behavior in accordance with human values. We then propose a process for eliciting and reconciling values called Moral Graph Elicitation (MGE), which uses a large language model to interview participants about their values in particular contexts; our approach is inspired by the philosophy of values advanced by Taylor (1977), Chang (2004), and others. We trial MGE with a representative sample of 500 Americans, on 3 intentionally divisive prompts (e.g. advice about abortion). Our results demonstrate that MGE is promising for improving model alignment across all 6 criteria. For example, almost all participants (89.1%) felt well represented by the process, and (89%) thought the final moral graph was fair, even if their value wasn't voted as the wisest. Our process often results in "expert" values (e.g. values from women who have solicited abortion advice) rising to the top of the moral graph, without defining who is considered an expert in advance.
연구 동기 및 목표
- 모델 행동을 인간의 가치로 형성하기 위해 정렬 대상이 충족해야 하는 여섯 가지 기준 정의.
- 철학에 기반한 새로운 정렬 대상 및 가치 카드로 도덕 그래프를 만듦.
- 가치 생성 및 조정을 위한 Moral Graph Elicitation 프로세스 설명.
- 사례 연구를 통해 MGE가 여섯 가지 기준을 충족하고 의미 있는 참가자 피드백을 얻는지 입증.
제안 방법
- 맥락별 구체적 가치의 구체적 구현으로 가치 카드를 제안.
- 맥락, 가치의 한 쌍, 그리고 맥락에 대해 어느 가치가 더 현명한지 나타내는 도덕 그래프 구성.
- 대규모 언어 모델을 사용해 참가자를 인터뷰하고 구체적 맥락에서 가치를 도출.
- Taylor (1977) 및 Chang (2004a)에 기반한 반복 조정 프로세스를 적용해 맥락별로 더 현명한 가치를 결정.
- 세 가지 분열적 프롬프트에 걸친 대표 표본(500명 미국인)에서 프로세스 평가.
- 합리성, 청취가능성, 견고성 등의 기준에 대해 기존 정렬 대상과 도덕 그래프를 비교.
실험 결과
연구 질문
- RQ1맥락별이고 해석 가능한 형태로 인간의 다양한 가치 입력을 어떻게 이끌어낼 수 있는가?
- RQ2도출된 가치를 어떻게 미세하게 일반화 가능하고 확장 가능한 정렬 대상로 조정할 수 있는가?
- RQ3Moral Graph Elicitation 프로세스가 합법적이고 견고하며 감사 가능하고 확장 가능한 정렬 대상을 만들어 내는가?
- RQ4실제 프롬프트에 MGE를 적용할 때의 실용적 결과와 참가자 인식은 어떠한가?
주요 결과
- 참가자들은 프로세스에 의해 높은 표현적 정합성을 보고, 89.1%가 과정에 의해 자신이 충분히 대표된다고 느꼈다.
- 비슷하게 89%의 참가자가 최종 도덕 그래프가 자신들의 입력에 대해 공정하다고 판단했다.
- 이 방법은 전문가 가치라고 불리는 값을 드러내는 경향이 있는데 (예: 낙태 상담을 요청한 여성들로부터 얻은 가치) 전문가 지위를 미리 정의하지 않는다.
- 여섯 가지 기준 프레임워크(세밀함, 일반화 가능성, 확장성, 견고성, 합법성, 감사 가능성)는 사례 연구 전반에서 유망한 방식으로 충족되었다.
- MGE는 맥락별 고려를 가치 비교를 통해 균형 잡으며 도덕 그래프에서 더 현명한 가치의 등장을 촉진한다.
- 저자들은 도덕 그래프를 통한 인간 가치 정렬이 법률 및 더 넓은 AI 윤리 노력과 보완적일 수 있다고 주장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.