Skip to main content
QUICK REVIEW

[論文レビュー] Generative AI Text Classification using Ensemble LLM Approaches

Harika Abburi, Michael Suesserman|arXiv (Cornell University)|Sep 14, 2023
Topic Modeling被引用数 15
ひとこと要約

本論文は、複数の事前学習済みLLMからの確率を特徴量として従来のML分類器に入力し、AI生成テキストを検出しソースモデルを特定するアンサンブルLLMベースのフレームワークを提案し、AuTexTificationタスクの英語とスペイン語データで評価した。

ABSTRACT

Large Language Models (LLMs) have shown impressive performance across a variety of Artificial Intelligence (AI) and natural language processing tasks, such as content creation, report generation, etc. However, unregulated malign application of these models can create undesirable consequences such as generation of fake news, plagiarism, etc. As a result, accurate detection of AI-generated language can be crucial in responsible usage of LLMs. In this work, we explore 1) whether a certain body of text is AI generated or written by human, and 2) attribution of a specific language model in generating a body of text. Texts in both English and Spanish are considered. The datasets used in this study are provided as part of the Automated Text Identification (AuTexTification) shared task. For each of the research objectives stated above, we propose an ensemble neural model that generates probabilities from different pre-trained LLMs which are used as features to a Traditional Machine Learning (TML) classifier following it. For the first task of distinguishing between AI and human generated text, our model ranked in fifth and thirteenth place (with macro $F1$ scores of 0.733 and 0.649) for English and Spanish texts, respectively. For the second task on model attribution, our model ranked in first place with macro $F1$ scores of 0.625 and 0.653 for English and Spanish texts, respectively.

研究の動機と目的

  • AI生成テキストを検出して誤情報、盗用、その他の規制されていないLLM使用のリスクを軽減する必要性を動機づける。
  • 複数の事前学習済みLLMの確率を従来のML分類器の特徴量として活用するアンサンブル手法を開発する。
  • 方法を2つのAuTexTificationタスク(AI対人間: バイナリ、英語とスペイン語での多クラスのモデル attribution)に適用する。
  • ベースラインと比較し、AuTexTificationのテストデータでフレームワークを評価する。

提案手法

  • それぞれのタスク/言語について、トレーニングデータで複数の事前学習LLMをファインチューニングする(例:DeBERTa、XLM-RoBERTa、RoBERTa、BERT)。
  • 各モデルから分類確率を取得する(P^D, P^X, P^R, P^B など)。
  • これらの確率を連結(P^C)または平均(P^A)して、従来のML分類器の入力特徴ベクトルを形成する。
  • アンサンブル特徴を用いて投票型分類器、OneVsRest、ECOC、Linear SVCなどの従来のMLモデルを訓練し、最終予測を出す。
  • テストデータで正確さ、マクロF1、適合率、再現率を用いて評価する。
  • タスクと言語ごとの結果を報告し、アンサンブルアプローチをベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1LLM由来の確率のアンサンブルが、英語とスペイン語のAI生成テキストを人間作成のテキストと効果的に識別できるか?
  • RQ2同じアンサンブル手法が、英語とスペイン語のテキストをその元のAIモデルに正確に割り当てられるか?
  • RQ3結合確率を連結した場合と平均した場合の異なるアンサンブル戦略、およびML分類器が、2つのAuTexTificationタスクの性能にどのような影響を与えるか?

主な発見

Model translatedAcc translatedF_macro translatedPrec translatedRec translated
Ensemble with Voting classifier (P^C as input feature)0.7510.7330.8260.745
Ensemble with OneVsRest classifier (P^C as input feature)0.7040.6490.8050.667
  • P^Cを入力特徴とする投票型エンサンブルは、Binary-EnglishでマクロF1を0.733、Binary-Spanishで0.649を達成。
  • Binary-Englishでは、Votingエンサンブルが0.751の精度、0.733のマクロF1、0.826の適合率、0.745の再現率を達成。
  • Binary-Spanishでは、連結特徴を用いたOneVsRestエンサンブルがマクロF10.649、適合率0.805、再現率0.667(比較した方法の中で最良)。
  • Model Attributionタスクでは、連結特徴を用いたECOCエンサンブルがMulticlass-EnglishでマクロF10.625、Multiclass-Spanishで0.653(報告された実行の中でトップ)となった。
  • 線形SVCエンサンブルは、平均特徴でMulticlass-Spanish0.654を達成(その言語でのベスト)。
  • 全体として、エンサンブルLLMアプローチはモデル attributionで高い性能を示し、両言語でAI-vs-human検出にも競争力のある結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。