Skip to main content
QUICK REVIEW

[논문 리뷰] Real or Fake? Learning to Discriminate Machine from Human Generated Text

Anton Bakhtin, Sam Gross|arXiv (Cornell University)|2019. 06. 07.
Topic Modeling참고 문헌 45인용 수 32
한 줄 요약

이 논문은 사전에 훈련된 자동회귀 언어 모델의 잔차 공간에서 에너지 기반 모델(EBM)을 훈련하여 인간이 작성한 진짜 텍스트와 기계가 생성한 텍스트를 구분하도록 제안한다. 생성된 텍스트를 음성 예외로 사용함으로써 EBM은 진짜 텍스트에 더 낮은 에너지를 할당하게 되어 다양한 생성기 아키텍처와 데이터셋에 대해 강력한 일반화 성능을 보이며, 특히 더 큰 모델과 더 긴 시퀀스에서 뛰어난 성능을 발휘한다.

ABSTRACT

Energy-based models (EBMs), a.k.a. un-normalized models, have had recent successes in continuous spaces. However, they have not been successfully applied to model text sequences. While decreasing the energy at training samples is straightforward, mining (negative) samples where the energy should be increased is difficult. In part, this is because standard gradient-based methods are not readily applicable when the input is high-dimensional and discrete. Here, we side-step this issue by generating negatives using pre-trained auto-regressive language models. The EBM then works in the residual of the language model; and is trained to discriminate real text from text generated by the auto-regressive models. We investigate the generalization ability of residual EBMs, a pre-requisite for using them in other applications. We extensively analyze generalization for the task of classifying whether an input is machine or human generated, a natural task given the training loss and how we mine negatives. Overall, we observe that EBMs can generalize remarkably well to changes in the architecture of the generators producing negatives. However, EBMs exhibit more sensitivity to the training set used by such generators.

연구 동기 및 목표

  • 에너지 기반 모델(EBM)이 진짜 인간 텍스트와 기계 생성 텍스트를 구분하도록 훈련할 때 일반화 성능이 잘 되는지 조사하는 것.
  • 기울기 기반 음성 예외 추출이 이산적이고 고차원적인 텍스트 시퀀스에서는 불가능한 상황에서 EBM을 훈련하는 데 도전하는 것.
  • 다른 아키텍처 또는 다른 코퍼스에서 훈련된 모델이 생성한 음성 예외를 사용해 테스트할 때 EBM의 강인성 평가.
  • EBM이 단순한 가능도 스코어링을 넘어서 일반적인 텍스트 모델링 프레임워크로 활용 가능한지 탐색하는 것.

제안 방법

  • 실제 인간이 생성한 텍스트에 낮은 에너지를, 사전에 훈련된 자동회귀 언어 모델이 생성한 텍스트에 높은 에너지를 할당하도록 에너지 기반 모델(EBM)을 훈련한다.
  • 기존에 훈련된 언어 모델을 사용해 음성 예외 샘플을 생성함으로써 이산적 시퀀스에서 기울기 기반 음성 예외 추출이 필요 없도록 한다.
  • 이진 교차 엔트로피나 순위 기반 손실을 사용해 EBM을 훈련하여 진짜 텍스트와 생성된 텍스트 간의 구분 성능을 최적화한다.
  • 다른 아키텍처(예: GPT-2 대비 BiLSTM)나 다른 코퍼스에서 훈련된 생성기로부터 생성된 음성 예외를 사용해 일반화 성능을 평가한다.
  • 입력에 대한 펌핑(예: 단어 교체, 엔터티 교체)에 대한 민감도를 분석하여 강인성과 분포 내/외부 행동을 평가한다.
  • 잔차 에너지 함수를 사용해 진짜 텍스트와 생성기 출력 간의 차이를 모델링하고, 언어 모델을 사전 확률로 간주한다.

실험 결과

연구 질문

  • RQ1실제 텍스트와 생성된 음성 예외를 기반으로 훈련된 에너지 기반 모델이 미리 보지 못한 생성기 아키텍처의 텍스트를 탐지하는 데 일반화할 수 있는가?
  • RQ2훈련 시 생성기와 테스트 시 생성기가 다른 코퍼스에서 훈련된 경우 EBMs의 일반화 성능는 어떻게 변하는가?
  • RQ3에너지 함수가 생성된 텍스트와 진짜 텍스트의 패턴을 어느 정도 학습하는가? 이는 분포 이탈에 대한 강인성에 어떤 영향을 미치는가?
  • RQ4모델 규모(아키텍처 크기)와 생성 길이가 EBM의 구분 정확도에 어떤 영향을 미치는가?
  • RQ5에너지 함수가 진짜 텍스트의 구조적 펌핑에 얼마나 민감한가? 이는 어떤 인덕티브 바이어스를 드러내는가?

주요 결과

  • EBM은 세 개의 생성 음성 예외 중 가장 열악한 것을 사용할 때도 최대 84.6%의 높은 구분 정확도를 기록하여 진짜/가짜 텍스트 탐지 작업에서 뛰어난 성능을 보였다.
  • EBM은 GPT-2나 BiLSTM와 같은 다양한 생성기 아키텍처 간에서 놀라울 정도로 뛰어난 일반화 성능를 보이며 아키텍처 변화에 강인함을 나타냈다.
  • 훈련 시 생성기와 테스트 시 생성기가 다른 코퍼스에서 훈련된 경우 성능가 급격히 떨어지며 데이터 분포 민감도가 드러났다.
  • 에너지 함수는 생성기 출력이 진짜 텍스트와 가장 다를 수 있는 시퀀스의 시작과 끝에서 펌핑에 더 민감했다.
  • EBM은 무작위 또는 도메인 외 텍스트에 낮은 에너지를 할당하여 생성되지 않은 패턴을 탐지하도록 학습했지만, 이 행동은 항상 신뢰할 수는 없었다.
  • 에너지 함수는 모델 규모와 생성 길이에 대해 더 강인했다: 더 큰 모델과 더 긴 시퀀스에서는 구분 성능가 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.