[论文解读] On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective
本论文评估 ChatGPT 在零-shot 设置下对对抗性输入和分布外数据的鲁棒性,与其他基础模型在多项 NLP 任务上的比较,并讨论局限性与未来方向。
ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.
研究动机与目标
- 评估 ChatGPT 在标准 NLP 基准(AdvGLUE、ANLI)以及一个对抗性翻译任务上的对抗鲁棒性。
- 在零-shot 设置下,评估 ChatGPT 在新数据集(Flipkart、DDXPlus)上的分布外鲁棒性。
- 在对抗性和分布外条件下,将 ChatGPT 的表现与一系列大型基础模型进行比较。
- 提供对鲁棒性挑战的分析与讨论,以及对基础模型潜在研究方向。
提出的方法
- 使用对 AdvGLUE 和 ANLI 的零-shot 评估,通过攻击成功率(ASR)来评估对抗鲁棒性。
- 使用 F1-score 作为度量,评估 Flipkart 与 DDXPlus 的分布外鲁棒性。
- 在 AdvGLUE-T 上进行零-shot 机器翻译评估,将 ChatGPT 与微调的 MT 模型及 GPT 系列基线(BLEU、GLEU、METEOR)进行比较。
- 选择来自 HuggingFace 与 OpenAI API 的一组具代表性的基础模型作为基线进行比较。
- 推广基于提示的评估并对输出进行人工处理,以确保跨模型可比性。

实验结果
研究问题
- RQ1在零-shot 设置下,ChatGPT 对文本分类和自然语言推理任务的对抗性扰动有多鲁棒?
- RQ2与其他大型基础模型相比,ChatGPT 在分布外(OOD)数据上的表现如何?
- RQ3在鲁棒性挑战下,ChatGPT 在翻译与对话相关的 NLP 任务中的相对强项与弱项是什么?
- RQ4对在安全关键或领域转移应用中部署 ChatGPT,对抗性和分布外鲁棒性有哪些启示?
主要发现
- 在对抗性分类任务上,ChatGPT 相较多基线表现出持续改进,但绝对性能仍不完善。
- ChatGPT 与其他 GPT 家族模型在 OOD 数据集上表现良好,在 DDXPlus(医疗对话)上相对于许多竞争对手具有显著优势。
- 在对抗性输入下,ChatGPT 展示出强的翻译可读性,尽管在某些指标上翻译表现可能落后于某些指令调优同类。
- ChatGPT 的医疗相关回答倾向于提供有据分析与建议,而非最终诊断,凸显安全意识。
- 更大尺寸的指令调优模型(例如 Flan-T5-L)在某些任务上可以接近或等同于更大模型的表现,表明指令调优对鲁棒性有益。
- 研究强调,许多基础模型的零-shot 鲁棒性仍然是一个薄弱点,强调需要鲁棒训练与防御策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。