[论文解读] Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT
本文在 GLUE 基准上评估 ChatGPT 与微调的 BERT 风格模型,发现推理/推断能力强但在改述(paraphrase)和相似性处理方面较弱;高级提示策略可以提升 ChatGPT 的表现,在某些任务上有时甚至超过 RoBERTa-large。
Recently, ChatGPT has attracted great attention, as it can generate fluent and high-quality responses to human inquiries. Several prior studies have shown that ChatGPT attains remarkable generation ability compared with existing models. However, the quantitative analysis of ChatGPT's understanding ability has been given little attention. In this report, we explore the understanding ability of ChatGPT by evaluating it on the most popular GLUE benchmark, and comparing it with 4 representative fine-tuned BERT-style models. We find that: 1) ChatGPT falls short in handling paraphrase and similarity tasks; 2) ChatGPT outperforms all BERT models on inference tasks by a large margin; 3) ChatGPT achieves comparable performance compared with BERT on sentiment analysis and question-answering tasks. Additionally, by combining some advanced prompting strategies, we show that the understanding ability of ChatGPT can be further improved.
研究动机与目标
- 在多样化的 NLU 任务中,利用 GLUE 基准评估 ChatGPT 的理解能力。
- 将 ChatGPT 与具有代表性的微调 BERT 风格模型(BERT-base、BERT-large、RoBERTa-base、RoBERTa-large)进行比较。
- 研究提示策略对 ChatGPT 性能的影响(少量示例 few-shot、零-shot 链式思考 CoT、手动少量示例 CoT)。
- 识别 ChatGPT 在蕴涵、改述和相似性任务中的特定强项与弱点。
- 探讨 ChatGPT 可能的局限性与失败案例,并提出通过提示改进理解的途径。
提出的方法
- 使用特定任务提示对 ChatGPT 及四个 BERT 风格基线在 GLUE 任务上进行评估。
- 从每个类别中采样 25 个开发集实例(STS-B 为 50)来创建评估子集。
- 按任务使用标准指标(准确率、F1、Pearson/Spearman、MCC),视情况而定。
- 将零-shot 的 ChatGPT 与微调基线进行比较,以建立理解的下限。
- 应用高级的提示策略(标准 few-shot、零-shot CoT、手动 few-shot CoT)以评估提升。
- 分析按类别的结果,并提供展示失败与强项的案例研究。
实验结果
研究问题
- RQ1在零-shot 设置下,ChatGPT 是否能在 GLUE 任务上达到与基础规模 BERT 相当的理解能力?
- RQ2在 GLUE 的推理与改述/相似性任务中,ChatGPT 的表现如何?
- RQ3高级提示策略是否能提高 ChatGPT 的理解能力,哪种策略最有效?
- RQ4在 NLU 任务中,ChatGPT 的显著失败模式有哪些,提示策略如何应对?
- RQ5通过提示策略,ChatGPT 在某些任务上能达到多接近甚至超越 RoBERTa-large?
主要发现
- ChatGPT 在推理任务上表现强劲,但在改写和相似性任务上结果較弱,特别是在负样本上。
- 在某些推理任务上,ChatGPT 超越了所有 BERT 风格模型,显示出显著的推理能力。
- 通过高级提示,ChatGPT 能显著缩小与 RoBERTa-large 的差距,在某些任务上甚至超越它,尽管平均性能仍有差距。
- 在应用提示策略强化时,零-shot 的 ChatGPT 的表现与基础 RoBERTa 相近,但总体仍落后于最强模型。
- 手动少量示例链式推理提示在所测试的提示方法中带来最大性能提升。
- 性能对单次示例提示的示例强相关性敏感,表明示例的相关性与与测试数据的相似性的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。