[논문 리뷰] AI Alignment: A Comprehensive Survey
초보자 친화적인 고찰로 AI 정렬 개념, RICE 목표(Robustness, Interpretability, Controllability, Ethicality), 순방향 및 역방향 정렬, 그리고 거버넌스 관점을 다루며, alignmentsurvey.com를 통한 지속적 업데이트를 제공합니다.
AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems' alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
연구 동기 및 목표
- RICE 프레임워크(Robustness, Interpretability, Controllability, Ethicality)를 사용하여 AI 정렬의 목표와 범위를 정의합니다.
- 정렬 구도를 순방향 정렬과 역방향 정렬로 맵핑하고, 기술 및 거버넌스 함의를 상세히 기술합니다.
- 피드백 학습과 분포 변화 처리를 위한 방법들을 조사하여 확장 가능하고 신뢰할 수 있는 정렬을 달성합니다.
- 주요 행위자와 단계에 걸친 보증, 안전 평가, 해석 가능성, 인간 가치 검증 및 거버넌스 관행을 논의합니다.
- 초보자 친화적인 지침과 자료를 제공하고, 진화하는 정렬 연구 웹사이트를 포함합니다.
제안 방법
- 핵심 정렬 개념, 실패 모드(보상 해킹, 목표 오일반화), 그리고 피드백으로 인한 잘못 정렬을 합성합니다.
- 순방향 정렬 기법: 선호 모델링, RLHF, 확장 가능한 감독, 그리고 반복 증류(iterative distillation), 증폭(amplification), 토론(debate) 같은 프레임워크를 검토합니다.
- 분포 변화 하에서의 학습: 적대적 학습(adversarial training)과 모드 연접(mode connectivity)과 같은 데이터 및 알고리즘 개입을 논의합니다.
- 역방향 정렬과 거버넌스를 조사합니다: 보증 방법, 안전 평가, 해석 가능성, 인간 가치 검증, 그리고 다중 이해관계자 거버넌스.
- 국제적, 오픈 소스, 사회기술적 관점을 포함한 거버넌스의 생애주기 관점 제시와 논의를 제공합니다.
실험 결과
연구 질문
- RQ1정렬의 핵심 목표는 무엇이며 실제로 Robustness, Interpretability, Controllability, Ethicality가 어떻게 상호 작용합니까?
- RQ2피드백 학습과 분포 변화 개입을 결합하여 확장 가능하고 신뢰할 수 있는 정렬을 어떻게 달성할 수 있습니까?
- RQ3도메인과 행위자 전반에 걸쳐 현재 및 향후 AI 위험을 관리하기 위해 어떤 보증 및 거버넌스 관행이 필요합니까?
주요 결과
- 정렬은 학습 방법과 거버넌스 고려 사항을 모두 이끄는 네 가지 목표(RICE)를 중심으로 구성됩니다.
- 순방향 정렬은 피드백 기반 학습, 선호 모델링, RLHF에 의존하며, 확장 가능한 감독이 향후 목표로 남습니다.
- 분포 변화는 적대적 학습(adversarial training)과 모드 연결성(mode connectivity) 기법을 포함한 알고리즘적 및 데이터 개입이 필요합니다.
- 역방향 정렬은 AI 시스템의 수명 주기 전반에 걸친 안전 평가, 해석 가능성 및 인간 가치 검증을 강조합니다.
- 거버넌스는 다중 이해관계자 협력과 국제적 및 개방 거버넌스 관행의 지속적 개발이 필요합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.