Skip to main content
QUICK REVIEW

[논문 리뷰] MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark

Anyang Song, Ying Cheng|arXiv (Cornell University)|2026. 01. 08.
Topic Modeling인용 수 0
한 줄 요약

MAGA-Bench는 데이터셋과 정렬 기반 증강 파이프라인을 통해 사람 작성 텍스트(HWT)와 기계 생성 텍스트(MGT)가 밀접하게 정렬되도록 하여 탐지기의 일반화를 테스트하고 개선합니다. 이는 정렬이 탐지기의 성능을 저하시킨다는 것과 MAGA로 파인튜닝하면 일반화가 향상된다는 것을 보여줍니다.

ABSTRACT

Large Language Models (LLMs) alignment is constantly evolving. Machine-Generated Text (MGT) is becoming increasingly difficult to distinguish from Human-Written Text (HWT). This has exacerbated abuse issues such as fake news and online fraud. Fine-tuned detectors' generalization ability is highly dependent on dataset quality, and simply expanding the sources of MGT is insufficient. Further augment of generation process is required. According to HC-Var's theory, enhancing the alignment of generated text can not only facilitate attacks on existing detectors to test their robustness, but also help improve the generalization ability of detectors fine-tuned on it. Therefore, we propose extbf{M}achine- extbf{A}ugment- extbf{G}enerated Text via extbf{A}lignment (MAGA). MAGA's pipeline achieves comprehensive alignment from prompt construction to reasoning process, among which extbf{R}einforced extbf{L}earning from extbf{D}etectors extbf{F}eedback (RLDF), systematically proposed by us, serves as a key component. In our experiments, the RoBERTa detector fine-tuned on MAGA training set achieved an average improvement of 4.60\% in generalization detection AUC. MAGA Dataset caused an average decrease of 8.13\% in the AUC of the selected detectors, expecting to provide indicative significance for future research on the generalization detection ability of detectors.

연구 동기 및 목표

  • 사람이 작성한 텍스트(HWT)와의 정렬을 통해 기계생성 텍스트(MGT)의 현실성 및 다양성을 향상시켜 탐지의 강건성을 고취한다.
  • 대규모, 다도메인, 다제너레이터 MGT/HWT 데이터셋과 정렬 증강을 구성하는 MAGA를 구축한다.
  • 탐지기의 피드백으로부터 강화학습을 이용한 RLDF(RLDF: reinforced learning from detectors feedback)를 제안하여 탐지기와 생성 품질을 반복적으로 개선한다.
  • 다수의 탐지기 및 외부 데이터셋에 걸쳐 MAGA가 탐지 성능과 탐지기의 일반화에 미치는 영향을 평가한다.

제안 방법

  • 10개 도메인에서 72k개의 HWT 텍스트를 샘플링하고 12개 제너레이터를 사용해 매칭되는 MGT를 생성하여 MAGA를 만든다.
  • 프롬프트와 MGT 정렬을 보강하기 위해 네 가지 정렬 방법(roleplaying, BPO, self-refine, RLDF-CMD)을 적용한다.
  • 탐지기의 피드백으로 탐지기를 미세조정하기 위한 RLDF(및 RLDF-CD / RLDF-CM)를 개발하여 일반화가 강한 탐지기를 생성한다.
  • 정렬 강화 없이의 MGB 기반선과 비교하여 탐지기 및 일반화에 대한 정렬 영향력을 정량화한다.
  • 다수의 탐지기(신경망 기반 및 지표 기반)를 포함하고 AUC, ACC, ACC@FPR=5%로 평가한다.
  • 재현성을 위한 MAGA 데이터셋(936k 엔트리)과 코드/모델을 공개한다.

실험 결과

연구 질문

  • RQ1정렬 보강이 다양한 탐지기에서 기계 생성 텍스트 탐지의 난이도에 어떻게 영향을 미치는가?
  • RQ2MAGA로 훈련될 때 RL 기반 증강(RLDF)이 탐지기의 일반화를 개선할 수 있는가?
  • RQ3다수의 도메인과 제너레이터에 걸쳐 MAGA가 기존 탐지기를 비강화 기준선(MGB)보다 더 악화시키는가?
  • RQ4다도메인, 다제너레이터 정렬이 외부 탐지 벤치마크에 얼마나 일반화되는가?

주요 결과

  • 정렬 증강은 탐지기의 AI-텍스트 판단을 크게 저하시켜(TPR 및 AUC 감소) HWT 탐지는 비교적 안정적으로 남아 있다.
  • MAGA로 미세조정된 RoBERTa가 외부 데이터셋에서 기준선에 비해 일반화에서 뚜렷한 이득을 보인다.
  • MAGA가 일반화에서 기준선 및 여러 신경망 기반 탐지기들을 능가하여 정렬 인식 데이터가 탐지기의 강건성에 가치를 입증한다.
  • RLDF, roleplaying, and self-refine은 핵심적인 효과적인 정렬 방법이며; BPO는 프롬프트 다양성을 제공하나 영향은 적다.
  • MAGA는 검출기의 강건성을 테스트하고 탐지기 일반화를 개선할 실용적인 경로를 제공하는 이중 용도를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.