QUICK REVIEW

[論文レビュー] A Linguistic Comparison between Human and ChatGPT-Generated Conversations

Morgan Sandler, Hyesun Choung|arXiv (Cornell University)|Jan 29, 2024

Artificial Intelligence in Healthcare and Education被引用数 10

ひとこと要約

本論文は、LIWCを用いて人間とChatGPT-3.5の会話の言語的差異を、19.5K件のChatGPT対話とEmpathicDialoguesを比較して118カテゴリで分析し、人間の方がより真正性が高いと判断され、ChatGPTは社会的・認知的・肯定的な語調の特徴がより強いことを示した。

ABSTRACT

This study explores linguistic differences between human and LLM-generated dialogues, using 19.5K dialogues generated by ChatGPT-3.5 as a companion to the EmpathicDialogues dataset. The research employs Linguistic Inquiry and Word Count (LIWC) analysis, comparing ChatGPT-generated conversations with human conversations across 118 linguistic categories. Results show greater variability and authenticity in human dialogues, but ChatGPT excels in categories such as social processes, analytical style, cognition, attentional focus, and positive emotional tone, reinforcing recent findings of LLMs being "more human than human." However, no significant difference was found in positive or negative affect between ChatGPT and human dialogues. Classifier analysis of dialogue embeddings indicates implicit coding of the valence of affect despite no explicit mention of affect in the conversations. The research also contributes a novel, companion ChatGPT-generated dataset of conversations between two independent chatbots, which were designed to replicate a corpus of human conversations available for open access and used widely in AI research on language modeling. Our findings enhance understanding of ChatGPT's linguistic capabilities and inform ongoing efforts to distinguish between human and LLM-generated text, which is critical in detecting AI-generated fakes, misinformation, and disinformation.

研究の動機と目的

人間とLLM生成対話の差異を理解する動機づけ：真正性の確保とAI生成テキストの検出に対処する。
LIWCを活用して言語特徴をプロファイルし、 humansとChatGPTの対話の変動性と真正性を比較する。
NLP研究を支援する新しいChatGPT生成のコンパニオンデータセット（2GPTEmpathicDialogues）を提供する。
対話中に明示的な感情表現がなくても、埋め込みに潜む感情サインを調査する。

提案手法

LIWC-22を用いて19.5K件の対話から118の言語カテゴリをコード化する（人間対照2つのChatGPTインスタンス）。
EmpathicDialoguesのシナリオを模倣するよう、2つのChatGPT-3.5-Turboインスタンスを協調させて2GPTEmpathicDialoguesを作成する。
Bonferroni補正（p<.001）を用いた独立標本t検定でカテゴリの平均を比較し、分散の差を検定するLevene検定を適用する。
OpenAI text-embedding-ada-002の埋め込みを用いて5分割クロスバリデーションで、価性（valence）分類器（Random Forest、SVM、MLP）を訓練・評価する。
UMAPを用いて価性別の埋め込み分布を視覚化し、クラスタ分離の指標としてDunn Indexを計算する。

Figure 1 : Framework for generation and prompts used in creating the 2GPTEmpathicDialogues dataset. In this setup, two instances of the ChatGPT-3.5-Turbo API engage in conversation with each other through a coordinating program.

実験結果

リサーチクエスチョン

RQ1ChatGPT生成の対話は、LIWCカテゴリの観点で変動性・真正性・社会的行動・認知・感情の点で人間の対話と異なるか。
RQ2埋め込みベースの価性分類が、明示的な感情表現がなくても、ChatGPTと人間の会話に潜む感情サインを検出できるか。
RQ32GPTEmpathicDialogues」は、言語分析のためのEmpathicDialogues人間コーパスを密接に再現するか。
RQ4言語的差異がAIテキスト検出と誤情報リスクに与える影響は何か。

主な発見

人間はLIWCカテゴリにおいてChatGPTより変動性と真正性が高いことを示す。
ChatGPTは社会的な過程、社会的配慮行動、礼儀正しさ、コミュニケーション、注意焦点、分析的思考、認知、ポジティブな情動語調の水準が高い。
全体のポジティブ感情またはネガティブ感情においてChatGPTと人間の間に有意差はない。
ChatGPTの埋め込みには潜在的な valence のヒントが見られ、分類器は高いF1スコアを達成する（SVM 90.0% on humans, 95.3% on ChatGPT）。
UMAPはChatGPTの埋め込みでより明確なvalenceクラスターを示し（Dunn Index 0.222）、人間は0.153である。
valence分類で最も誤分類された感情には anxious, surprised, trusting, caring, sentimental, hopeful などがあり、両データセットで見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。