QUICK REVIEW

[논문 리뷰] Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for GPT-3.5, GPT-4 and Bard

Ariel Rosenfeld, Teddy Lazebnik|arXiv (Cornell University)|2024. 02. 22.

Natural Language Processing Techniques인용 수 5

한 줄 요약

논문은 GPT-3.5, GPT-4, Bard가 어휘, POS, 의존성, 그리고 감정에서 뚜렷한 언어 스타일을 보이며, 간단한 분류기를 사용해 텍스트의 LLM 기원을 88% 정확도로 속하는 것을 가능하게 한다.

ABSTRACT

Large Language Models (LLMs) are capable of generating text that is similar to or surpasses human quality. However, it is unclear whether LLMs tend to exhibit distinctive linguistic styles akin to how human authors do. Through a comprehensive linguistic analysis, we compare the vocabulary, Part-Of-Speech (POS) distribution, dependency distribution, and sentiment of texts generated by three of the most popular LLMS today (GPT-3.5, GPT-4, and Bard) to diverse inputs. The results point to significant linguistic variations which, in turn, enable us to attribute a given text to its LLM origin with a favorable 88\% accuracy using a simple off-the-shelf classification model. Theoretical and practical implications of this intriguing finding are discussed.

연구 동기 및 목표

주요 LLM이 인간 저자와 유사한 차별화 가능한 언어 스타일을 보이는지 조사한다.
GPT-3.5, GPT-4, Bard 간 어휘, POS, 의존성, 감정의 차이를 특징짓는다.
감정적 특징을 포함한 언어적 특징을 사용한 감독 학습 모델로 LLM 귀속의 가능성을 평가한다.

제안 방법

HC3를 확장하여 LC2를 구성하고, 다섯 개의 데이터셋에서 각 데이터셋당 1,000개의 입력에 대한 GPT-3.5, GPT-4, Bard의 응답을 수집하여 총 5,000개의 입력, 15,000개의 응답을 얻는다.
ANOVA와 Tukey 사후 검정, Bonferroni 보정이 적용된 KS 검정, Wilcoxon 검정(p<0.05)을 사용해 어휘, POS, 의존성, 감정을 분석한다.
텍스트 분류기를 위한 언어 특징으로 LLM 귀속을 위한 off-the-shelf XGBoost 분류기를 5-fold 교차 검증으로 학습한다.
정보 이득 및 모델 성능 지표(재현율, F1, 정확도)를 통해 특징 중요성과 성능을 보고한다.
공개 저장소를 통해 코드와 데이터를 공개적으로 접근 가능하게 제공한다.

실험 결과

연구 질문

RQ1GPT-3.5, GPT-4, Bard가 어휘, POS, 의존성, 감정에서 통계적으로 구별되는 언어 표지자를 보이는가?
RQ2언어적 특징으로 텍스트의 LLM 기원을 정확하게 귀속할 수 있는가?
RQ3모델 간 LLM 귀속에 기여하는 가장 중요한 언어적 특징은 무엇인가?

주요 결과

Dataset	LLM	Average length	Vocabulary size	Density
Finance	GPT-3.5	208.13	20974	2.49
Finance	GPT-4	197.53	22785	2.73
Finance	Bard	219.28	21809	2.64
Medicine	GPT-3.5	206.14	7910	3.11
Medicine	GPT-4	168.09	8827	5.69
Medicine	Bard	180.16	7594	3.24
open_qa	GPT-3.5	142.61	15379	9.06
open_qa	GPT-4	88.42	12097	16.93
open_qa	Bard	65.74	10829	17.34
reddit_eli5	GPT-3.5	191.38	45198	1.40
reddit_eli5	GPT-4	151.18	48095	2.05
reddit_eli5	Bard	133.70	46147	1.87
wiki_csai	GPT-3.5	202.39	9347	5.03
wiki_csai	GPT-4	215.05	10074	6.73
wiki_csai	Bard	186.18	9240	7.18

Bard는 GPT-3.5 및 GPT-4에 비해 응답이 더 짧고 어휘 규모가 작으며 밀도가 상대적으로 높게 나타난다.
GPT-4는 일반적으로 데이터셋 전반에서 GPT-3.5보다 더 큰 어휘 규모와 밀도를 보인다.
세 모델 간 POS 및 의존성 패턴은 유의하게 다르며, Bard는 낮은 빈도 POS와 특정 의존성 유형에서 더 다양한 사용을 보인다.
감정은 모든 모델에서 긍정적이며 유의한 차이는 없다(대략 53% 긍정적).
어휘 특징을 활용한 XGBoost 분류기는 GPT-3.5, GPT-4, Bard에 텍스트를 귀속하는 데 0.88의 정확도(F1 0.87)를 달성한다.
속성에 대한 주요 특징으로는 명사/고유명사 사용, 긍정적 감정, 구두점, 어휘의 밀도/단어 수가 꼽힌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.