Skip to main content
QUICK REVIEW

[论文解读] A Linguistic Comparison between Human and ChatGPT-Generated Conversations

Morgan Sandler, Hyesun Choung|arXiv (Cornell University)|Jan 29, 2024
Artificial Intelligence in Healthcare and Education被引用 10
一句话总结

本文使用 LIWC 对 118 个类别,在 19.5K ChatGPT 对话与 EmpathicDialogues 的对话中分析人类与 ChatGPT-3.5 对话之间的语言差异,结果显示人类更具真实性,而 ChatGPT 在社会、认知和积极语气特征上表现更强。

ABSTRACT

This study explores linguistic differences between human and LLM-generated dialogues, using 19.5K dialogues generated by ChatGPT-3.5 as a companion to the EmpathicDialogues dataset. The research employs Linguistic Inquiry and Word Count (LIWC) analysis, comparing ChatGPT-generated conversations with human conversations across 118 linguistic categories. Results show greater variability and authenticity in human dialogues, but ChatGPT excels in categories such as social processes, analytical style, cognition, attentional focus, and positive emotional tone, reinforcing recent findings of LLMs being "more human than human." However, no significant difference was found in positive or negative affect between ChatGPT and human dialogues. Classifier analysis of dialogue embeddings indicates implicit coding of the valence of affect despite no explicit mention of affect in the conversations. The research also contributes a novel, companion ChatGPT-generated dataset of conversations between two independent chatbots, which were designed to replicate a corpus of human conversations available for open access and used widely in AI research on language modeling. Our findings enhance understanding of ChatGPT's linguistic capabilities and inform ongoing efforts to distinguish between human and LLM-generated text, which is critical in detecting AI-generated fakes, misinformation, and disinformation.

研究动机与目标

  • 促使理解人类与 LLM 生成的对话之间的差异,以解决真实性以及 AI 生成文本的检测问题。
  • 利用 LIWC 描绘语言特征并比较人类与 ChatGPT 对话之间的变异性与真实性。
  • 提供一个新的 ChatGPT 生成的伴侣数据集(2GPTEmpathicDialogues)以帮助 NLP 研究。
  • 在嵌入中研究潜在情感线索,尽管对话中没有明确的情感提及。

提出的方法

  • 使用 LIWC-22 对 19.5K 对话中的 118 个语言类别进行编码(人类对照两种 ChatGPT 实例)。
  • 通过协调两个 ChatGPT-3.5-Turbo 实例来模仿 EmpathicDialogues 场景,创建 2GPTEmpathicDialogues。
  • 应用独立样本 t 检验并采用 Bonferroni 校正(p<.001)来比较类别均值,并进行 Levene 检验以检验方差差异。
  • 在 OpenAI text-embedding-ada-002 的嵌入上使用 5 折交叉验证训练并评估情感分类器(随机森林、SVM、MLP)。
  • 使用 UMAP 根据情感对嵌入进行可视化分布,并计算 Dunn 指数以衡量簇分离。
Figure 1 : Framework for generation and prompts used in creating the 2GPTEmpathicDialogues dataset. In this setup, two instances of the ChatGPT-3.5-Turbo API engage in conversation with each other through a coordinating program.
Figure 1 : Framework for generation and prompts used in creating the 2GPTEmpathicDialogues dataset. In this setup, two instances of the ChatGPT-3.5-Turbo API engage in conversation with each other through a coordinating program.

实验结果

研究问题

  • RQ1ChatGPT 生成的对话是否在 LIWC 分类方面在变异性、真实性、社会行为、认知和情感方面与人类对话存在差异?
  • RQ2尽管对话中没有明确的情感提及,基于嵌入的情感分类是否能检测到 ChatGPT 与人类对话中的潜在情感线索?
  • RQ3一个 ChatGPT 生成的伴侣数据集(2GPTEmpathicDialogues)是否与 EmpathicDialogues 人类语料在语言分析上高度相似?
  • RQ4语言差异对 AI 文本检测和错误信息风险有哪些含义?

主要发现

  • 人类在 LIWC 类别上表现出比 ChatGPT 更大的变异性和真实性。
  • ChatGPT 在社会过程、亲社会行为、礼貌、沟通、注意力聚焦、分析性思维、认知以及积极情感语气方面水平更高。
  • 在总体正向或负向情感方面,ChatGPT 与人类之间无显著差异。
  • ChatGPT 嵌入显示潜在的情感线索,分类器达到较高的 F1 分数(SVM 在人类为 90.0%,在 ChatGPT 为 95.3%)。
  • UMAP 显示 ChatGPT 嵌入中的情感聚类更清晰(Dunn 指数 0.222)比人类为 0.153。
  • 情感分类中被错误分类的情感包括 anxious、surprised、trusting、caring、sentimental、hopeful 等,以及两个数据集中的其他情感。
(a) Human Dialogues
(a) Human Dialogues

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。