Skip to main content
QUICK REVIEW

[论文解读] Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation

Adriana Alvarado Garcia, Ruyuan Wan|arXiv (Cornell University)|Feb 10, 2026
Advanced Malware Detection Techniques被引用 0
一句话总结

该论文通过对 22 份半结构化访谈的实证研究,考察了对抗性测试大型语言模型的社会-技术实践,强调数据集如何被创建、重复使用与评估。

ABSTRACT

Recently, red teaming, with roots in security, has become a key evaluative approach to ensure the safety and reliability of Generative Artificial Intelligence. However, most existing work emphasizes technical benchmarks and attack success rates, leaving the socio-technical practices of how red teaming datasets are defined, created, and evaluated under-examined. Drawing on 22 interviews with practitioners who design and evaluate red teaming datasets, we examine the data practices and standards that underpin this work. Because adversarial datasets determine the scope and accuracy of model evaluations, they are critical artifacts for assessing potential harms from large language models. Our contributions are first, empirical evidence of practitioners conceptualizing red teaming and developing and evaluating red teaming datasets. Second, we reflect on how practitioners' conceptualization of risk leads to overlooking the context, interaction type, and user specificity. We conclude with three opportunities for HCI researchers to expand the conceptualization and data practices for red-teaming.

研究动机与目标

  • 了解 AI 从业者如何创建、开发和评估用于对抗性测试 LLM 的数据集,以及为何以这种方式进行。
  • 确定在开发对抗性测试数据集时从业者需要的工具、支持与工作流程。
  • 揭示在对抗性测试实践中如何定义危害以及如何框定风险。

提出的方法

  • 对设计、构建或重复使用用于对抗性测试 LLM 数据集的 AI 从业者进行了 22 次半结构化访谈。
  • 通过 Hugging Face 与 Papers with Code 从公开的对抗性测试数据集与相关文献中招募参与者。
  • 使用主题分析从访谈逐字稿中推导代码与主题(21 个父代码下的 47 条子代码)。
  • 访谈以参与者公开发布的数据集与出版物为基础来情境化问题。

实验结果

研究问题

  • RQ1AI 从业者如何创建、开发和评估用于对抗性测试的数据集,且为何以这些方式进行?
  • RQ2在开发对抗性测试数据集时,AI 从业者需要哪些工具与支持?
  • RQ3从业者如何在对抗性测试 LLM 时定义并框定危害与风险?

主要发现

  • 对抗性测试数据集并非中立;设计选择嵌入了相关方的价值观与风险定义。
  • 从业者通过三种方式构建数据集:自行从头创建、重复使用现有数据集,或从人与互动中推导。
  • 对对抗性测试数据的评估包括机器触发与人机交互两类评估,语境、多样性与指标会影响结果。
  • 学科背景塑造对对抗性测试的框架,是以探索或分类的视角,并影响优先考虑的危害类型。
  • 相关方的观点与包容性安全考量在实际中往往被低估,影响 surfaced 的危害类型。
  • HCI 研究者被敦促扩展评估,纳入使用场景、领域专业知识与交互层面的风险。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。