[논문 리뷰] Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation
본 논문은 22회의 반구조화 인터뷰를 통해 LLMs의 사회기술적 관행을 실증적으로 분석하고, 데이터셋이 어떻게 만들어지고 재사용되며 평가되는지 강조한다.
Recently, red teaming, with roots in security, has become a key evaluative approach to ensure the safety and reliability of Generative Artificial Intelligence. However, most existing work emphasizes technical benchmarks and attack success rates, leaving the socio-technical practices of how red teaming datasets are defined, created, and evaluated under-examined. Drawing on 22 interviews with practitioners who design and evaluate red teaming datasets, we examine the data practices and standards that underpin this work. Because adversarial datasets determine the scope and accuracy of model evaluations, they are critical artifacts for assessing potential harms from large language models. Our contributions are first, empirical evidence of practitioners conceptualizing red teaming and developing and evaluating red teaming datasets. Second, we reflect on how practitioners' conceptualization of risk leads to overlooking the context, interaction type, and user specificity. We conclude with three opportunities for HCI researchers to expand the conceptualization and data practices for red-teaming.
연구 동기 및 목표
- AI 실무자들이 LLMs용 레드테이밍 데이터셋을 어떻게 만들고 개발하며 평가하는지, 그리고 왜 그렇게 하는지 이해한다.
- 레드테이밍 데이터셋을 개발할 때 실무자들이 필요로 하는 도구, 지원 및 워크플로를 식별한다.
- 레드테이밍 관행에서 해가 어떻게 정의되고 위험이 어떻게 구성되는지 밝힌다.
제안 방법
- LLMs용 레드테이밍 데이터셋을 설계·구축하거나 재사용하는 AI 실무자 22명을 대상으로 반구조화 인터뷰를 실시했다.
- 참여자는 Hugging Face와 Papers with Code를 통해 공개된 레드테이밍 데이터셋 및 관련 문헌에서 모집되었다.
- 주제 분석을 사용하여 인터뷰 기록에서 코드와 주제를 도출했다(21개 상위 코드 아래 47개 하위 코드).
- 인터뷰는 질문 맥락화를 위해 참여자들이 공개적으로 공개한 데이터셋과 출판물에 근거했다.
실험 결과
연구 질문
- RQ1AI 실무자들은 레드테이밍 데이터셋을 어떻게 만들고 개발하며 평가하며, 왜 이러한 방식으로 하는가?
- RQ2레드테이밍 데이터셋을 개발할 때 AI 실무자들이 어떤 도구와 지원이 필요한가?
- RQ3실무자들은 LLMs의 레드테이밍에서 해와 위험을 어떻게 정의하고 구성하는가?
주요 결과
- 레드테이밍 데이터셋은 중립적이지 않다; 설계 결정은 이해관계자의 가치와 위험 정의를 내포한다.
- 실무자들은 세 가지 방식으로 데이터셋을 구축한다: 처음부터 만들기, 기존 데이터셋 재사용, 또는 사람과의 상호작용에서 파생.
- 레드테이밍 데이터의 평가에는 기계가 촉발하는 평가와 인간이 개입하는 평가가 모두 포함되며, 맥락, 다양성, 지표가 결과에 영향을 미친다.
- 전문 분야 배경은 레드테이밍의 프레이밍을 탐색으로서 또는 분류로서 형성하고, 어떤 해가 우선순위를 갖는지에 영향을 준다.
- 이해관계자 관점과 포용적 안전 고려는 실제 적용에서 자주 충분히 반영되지 않아 드러나는 해의 범위에 영향을 준다.
- HCI 연구자들에게는 평가를 사용 맥락, 도메인 전문 지식, 상호작용 수준의 위험까지 확장하라고 촉구한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.