[논문 리뷰] Generative AI Text Classification using Ensemble LLM Approaches
본 논문은 다수의 사전 학습 LLM의 확률을 전통적인 ML 분류기의 특징으로 활용하는 앙상블 LLM 기반 프레임워크를 제안하여 AI 생성 텍스트를 탐지하고 출처 모델을 식별한다는 내용을 제시한다. 이 방식은 AuTexTification task의 영어 및 스페인어 데이터를 통해 평가되었다.
Large Language Models (LLMs) have shown impressive performance across a variety of Artificial Intelligence (AI) and natural language processing tasks, such as content creation, report generation, etc. However, unregulated malign application of these models can create undesirable consequences such as generation of fake news, plagiarism, etc. As a result, accurate detection of AI-generated language can be crucial in responsible usage of LLMs. In this work, we explore 1) whether a certain body of text is AI generated or written by human, and 2) attribution of a specific language model in generating a body of text. Texts in both English and Spanish are considered. The datasets used in this study are provided as part of the Automated Text Identification (AuTexTification) shared task. For each of the research objectives stated above, we propose an ensemble neural model that generates probabilities from different pre-trained LLMs which are used as features to a Traditional Machine Learning (TML) classifier following it. For the first task of distinguishing between AI and human generated text, our model ranked in fifth and thirteenth place (with macro $F1$ scores of 0.733 and 0.649) for English and Spanish texts, respectively. For the second task on model attribution, our model ranked in first place with macro $F1$ scores of 0.625 and 0.653 for English and Spanish texts, respectively.
연구 동기 및 목표
- 검증되지 않은 LLM 사용으로 인한 오정보, 표절 및 기타 위험을 완화하기 위해 AI 생성 텍스트를 탐지해야 할 필요성을 동기 부여한다.
- 다중 사전 학습 LLM의 확률을 전통적인 ML 분류기의 특징으로 활용하는 앙상블 접근법을 개발한다.
- 이 방법을 두 가지 AuTexTification 태스크에 적용한다: 영어와 스페인어에서의 AI 대 인간(이진 분류) 및 모델 식별(다중 클래스).
- 베이스라인과 비교하여 프레임워크를 평가하고 AuTexTification의 테스트 데이터에서 성능을 보고한다.
제안 방법
- 각 태스크/언어에 대해 훈련 데이터에서 다수의 사전 학습 LLM(예: DeBERTa, XLM-RoBerta, RoBERTa, BERT)을 미세 조정한다.
- 각 모델로부터 분류 확률(P^D, P^X, P^R, P^B 등)을 얻는다.
- 이 확률들을 연결(P^C)하거나 평균(P^A)하여 전통적 ML 분류기의 입력 특징 벡터를 형성한다.
- 앙상블 특징에 대해 전통 ML 모델(Voting classifier, OneVsRest, ECOC, Linear SVC)을 학습시켜 최종 예측을 생성한다.
- 테스트 데이터에서 정확도, macro F1, 정밀도, 재현율로 평가한다.
- 태스크 및 언어별 결과를 보고하고 앙상블 접근법을 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1LLM 도출 확률의 앙상블이 영어와 스페인어에서 AI 생성 텍스트를 인간이 쓴 텍스트와 효과적으로 구분할 수 있는가?
- RQ2같은 앙상블 접근법이 영어와 스페인어에서 텍스트를 출처 AI 모델에 정확히 할당할 수 있는가?
- RQ3다른 앙상블 전략(연결된 확률 vs 평균 확률)과 ML 분류기가 두 가지 AuTexTification 태스크에서 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | Acc | F_macro | Prec | Rec |
|---|---|---|---|---|
| Ensemble with Voting classifier (P^C as input feature) | 0.751 | 0.733 | 0.826 | 0.745 |
| Ensemble with OneVsRest classifier (P^C as input feature) | 0.704 | 0.649 | 0.805 | 0.667 |
- P^C를 입력 특징으로 사용하는 Voting 분류기를 이용한 앙상블은 AI-vs-human 태스크의 Binary-English에서 macro F1 0.733, Binary-Spanish에서 0.649를 달성했다.
- Binary-English에서 Voting 앙상블은 정확도 0.751, macro F1 0.733, 정밀도 0.826, 재현율 0.745를 달성한다.
- Binary-Spanish에서 결합 특징을 가진 OneVsRest 앙상블은 macro F1 0.649, 정밀도 0.805, 재현율 0.667로 비교 방법 중 최고다.
- Model Attribution 태스크에서 연결된 특징의 ECOC 앙상블은 Multiclass-English에서 macro F1 0.625, Multiclass-Spanish에서 0.653로 보고된 결과 중 상위다.
- 평균 특징의 Linear SVC 앙상블은 Multiclass-Spanish에서 macro F1 0.654로 해당 언어에서 최고다.
- 전반적으로, 앙상블 LLM 방법은 모델 식별에서 강한 성능을 보이며 두 언어에서 AI-vs-human 탐지에서도 경쟁력 있는 결과를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.