[论文解读] Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for GPT-3.5, GPT-4 and Bard
本论文表明 GPT-3.5、GPT-4 和 Bard 在词汇、词性、依存关系和情感等方面具有不同的语言风格,使用一个简单分类器即可在 88% 的准确率下将文本归因于其 LLM 原产来源。
Large Language Models (LLMs) are capable of generating text that is similar to or surpasses human quality. However, it is unclear whether LLMs tend to exhibit distinctive linguistic styles akin to how human authors do. Through a comprehensive linguistic analysis, we compare the vocabulary, Part-Of-Speech (POS) distribution, dependency distribution, and sentiment of texts generated by three of the most popular LLMS today (GPT-3.5, GPT-4, and Bard) to diverse inputs. The results point to significant linguistic variations which, in turn, enable us to attribute a given text to its LLM origin with a favorable 88\% accuracy using a simple off-the-shelf classification model. Theoretical and practical implications of this intriguing finding are discussed.
研究动机与目标
- 研究大型LLMs是否表现出类似于人类作者的可区分语言风格。
- 描述GPT-3.5、GPT-4和Bard在词汇、词性、依存关系和情感方面的差异。
- 评估使用语言特征的监督模型进行LLM归因的可行性。
提出的方法
- 通过将HC3扩展为LC2,收集来自GPT-3.5、GPT-4和Bard在五个数据集上对每个数据集1,000个输入的回答(总5,000个输入,15,000个回答)。
- 使用ANOVA及Tukey事后检验、KS检验并进行Bonferroni校正,以及Wilcoxon检验(p<0.05)来分析词汇、词性、依存关系和情感。
- 在语言特征上训练一个现成的XGBoost分类器用于LLM归因,采用5折交叉验证。
- 通过信息增益和模型性能指标(召回率、F1、准确率)报告特征重要性。
- 通过公开仓库提供代码和数据访问。
实验结果
研究问题
- RQ1GPT-3.5、GPT-4和Bard是否在词汇、词性、依存关系和情感方面呈现统计上显著的语言标记?
- RQ2语言特征是否能够实现对文本归因到其LLM来源的高准确性?
- RQ3哪些语言特征对跨模型的LLM归因贡献最大?
主要发现
| 数据集 | LLM | 平均长度 | 词汇量 | 密度 |
|---|---|---|---|---|
| Finance | GPT-3.5 | 208.13 | 20974 | 2.49 |
| Finance | GPT-4 | 197.53 | 22785 | 2.73 |
| Finance | Bard | 219.28 | 21809 | 2.64 |
| Medicine | GPT-3.5 | 206.14 | 7910 | 3.11 |
| Medicine | GPT-4 | 168.09 | 8827 | 5.69 |
| Medicine | Bard | 180.16 | 7594 | 3.24 |
| open_qa | GPT-3.5 | 142.61 | 15379 | 9.06 |
| open_qa | GPT-4 | 88.42 | 12097 | 16.93 |
| open_qa | Bard | 65.74 | 10829 | 17.34 |
| reddit_eli5 | GPT-3.5 | 191.38 | 45198 | 1.40 |
| reddit_eli5 | GPT-4 | 151.18 | 48095 | 2.05 |
| reddit_eli5 | Bard | 133.70 | 46147 | 1.87 |
| wiki_csai | GPT-3.5 | 202.39 | 9347 | 5.03 |
| wiki_csai | GPT-4 | 215.05 | 10074 | 6.73 |
| wiki_csai | Bard | 186.18 | 9240 | 7.18 |
- Bard 相比 GPT-3.5 和 GPT-4 往往给出更短的回答、词汇量较小且密度相对较高。
- GPT-4 通常在数据集上显示出比 GPT-3.5 更高的词汇量和密度。
- 词性和依存关系模式在三种 LLM 之间差异显著,Bard在低频词性和某些依存类型的使用上更为多样。
- 情感在所有模型中均为正向且差异不显著(约53% 为积极)。
- 使用语言特征的XGBoost分类器在将文本归因于GPT-3.5、GPT-4或Bard方面达到0.88的准确率(F1 0.87)。
- 归因的主要特征包括名词/专有名词使用、正向情感、标点符号,以及词汇密度/词数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。