[논문 리뷰] A Survey on Responsible Generative AI: What to Generate and What Not
이 설문은 텍스트 및 비주얼 GenAI 모두에 대한 다섯 가지 실용적인 책임 있는 AI 요건(사실성 있는 콘텐츠, 비독성 콘텐츠, 유해 지침 거부, 데이터 누수 방지, 식별 가능한 콘텐츠)을 식별하고, 진전, 도전 과제 및 도메인 적용에 대해 검토한다.
In recent years, generative AI (GenAI), like large language models and text-to-image models, has received significant attention across various domains. However, ensuring the responsible generation of content by these models is crucial for their real-world applicability. This raises an interesting question: What should responsible GenAI generate, and what should it not? To answer the question, this paper investigates the practical responsible requirements of both textual and visual generative models, outlining five key considerations: generating truthful content, avoiding toxic content, refusing harmful instruction, leaking no training data-related content, and ensuring generated content identifiable. Specifically, we review recent advancements and challenges in addressing these requirements. Besides, we discuss and emphasize the importance of responsible GenAI across healthcare, education, finance, and artificial general intelligence domains. Through a unified perspective on both textual and visual generative models, this paper aims to provide insights into practical safety-related issues and further benefit the community in building responsible GenAI.
연구 동기 및 목표
- 텍스트 및 시각적 모델 모두에 적용 가능한 책임 있는 GenAI 생성을 위한 다섯 가지 실용적 요건을 식별하고 명시한다.
- 사실적이고 비독성 있으며 안전한 출력 달성에 관한 최근의 진전과 지속적인 도전과제를 검토한다.
- 안전한 배치를 안내하기 위한 텍스트 및 비주얼 GenAI에 대한 통합적 관점을 제공한다.
- 책임 있는 실천을 위한 건강 관리, 교육, 금융, AGI 분야의 도메인별 시사점을 논의한다.
- 향후 연구 방향과 커뮤니티 안전 노력을 위한 통찰과 방향을 제시한다.
제안 방법
- 텍스트 및 비주얼 GenAI에 대한 다섯 가지 핵심 책임 있는 생성 요건에 관한 문헌을 검토한다.
- 모델 유형 전반에 걸친 환각, 독성, 탈옥 공격, 데이터 누수, 식별 가능성에 관한 논의를 종합한다.
- 안전성과 관련된 정렬 기술(RLHF 등)과 사후 학습 전략을 검토한다.
- 적대적/백도어 공격, 탐지 및 완화를 포함한 취약성 및 방어 접근법을 논의한다.
- 헬스케어, 교육, 금융, AGI 도메인에서의 응용과 위험을 비교한다.
실험 결과
연구 질문
- RQ1GenAI가 텍스트와 이미지 모두에 대해 책임 있는 것으로 기능하기 위해 충족해야 할 다섯 가지 실용적 요건은 무엇인가?
- RQ2GenAI를 사실처럼 정확하고 비독성이며 유해 프롬프트를 거부하고 학습 데이터 누수를 피하며 식별 가능한 콘텐츠를 생성하도록 만드는 데 어떤 진전과 도전과제가 존재하는가?
- RQ3이러한 안전 문제에서 텍스트와 비주얼 GenAI는 어떻게 다르거나 수렴하는가?
- RQ4건강 관리, 교육, 금융, 그리고 인공 일반 지능(AGI) 맥락에서 어떤 도메인별 고려사항과 위험이 나타나는가?
- RQ5더 안전한 GenAI 배치를 위한 방법론적 방향과 방어 전략 중 어떤 것이 가능성을 보이는가?
주요 결과
- GenAI를 위한 다섯 가지 핵심 책임 있는 생성 요건이 확인되었다: 사실적 콘텐츠, 비독성 콘텐츠, 유해 지침 거부, 학습 데이터 누수 방지, 식별 가능한 콘텐츠.
- 텍스트 및 비주얼 GenAI 모두에 대한 통합적 관점을 제공하여 공유되는 안전 문제와 완화 전략을 강조한다.
- 환각, 독성, 탈옥 공격, 데이터 누수는 주요 취약점으로 논의되며 탐지 및 완화 방법의 개요가 제공된다.
- 정렬 기술(RLHF 등)과 사후 학습 정제가 안전성을 개선하는 핵심 방법으로 검토되며, 대체 정렬 및 제어 가능한 생성 전략도 함께 다룬다.
- 본 논문은 도메인별 시사점을 강조하고 건강 관리, 교육, 금융, AGI에서 책임 있는 GenAI를 위한 지속적인 도전과 기회에 주목한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.