QUICK REVIEW

[논문 리뷰] The Truth is Out There: Investigating Conspiracy Theories in Text Generation.

Sharon Levy, Michael Saxon|arXiv (Cornell University)|2021. 01. 02.

Misinformation and Its Impacts인용 수 4

한 줄 요약

이 논문은 사전 훈련된 언어 모델이 공포 이론을 생성하는 경향을 연구하며, Reddit의 인간이 작성한 이론들과 기계가 생성한 내용을 비교한다. 연구에서 많은 유명한 공포 이론 주제들이 이러한 모델 내부에 깊이 내장되어 있음을 밝혀내었고, 다양한 설정에서 이들의 영향력이 증폭될 수 있음을 보여주었다. 이에 따라 향후 연구를 위해 공포 이론 주제, 인간이 작성한 이론, 모델이 생성한 변형 텍스트를 포함하는 새로운 데이터셋을 제시한다.

ABSTRACT

With the growing adoption of text generation models in today's society, users are increasingly exposed to machine-generated text. This in turn can leave users vulnerable to the generation of harmful information such as conspiracy theories. While the propagation of conspiracy theories through social media has been studied, previous work has not evaluated their diffusion through text generation. In this work, we investigate the propensity for language models to generate conspiracy theory text. Our study focuses on testing these models for the elicitation of conspiracy theories and comparing these generations to human-written theories from Reddit. We also introduce a new dataset consisting of conspiracy theory topics, machine-generated conspiracy theories, and human-written conspiracy theories. Our experiments show that many well-known conspiracy theory topics are deeply rooted in the pre-trained language models, and can become more prevalent through different model settings.

연구 동기 및 목표

사전 훈련된 언어 모델이 명시적인 피니튜닝 없이도 공포 이론을 생성할 수 있는지 여부를 조사하는 것.
Reddit의 인간이 작성한 이론들과 비교하여 기계가 생성한 공포 이론의 품질과 특성에 대해 분석하는 것.
모델 설정이 공포 이론 콘텐츠의 확산을 증폭시키는지 확인하는 것.
기준으로 사용할 수 있도록, 공포 이론 주제, 인간이 작성한 이론, 모델이 생성한 변형 텍스트를 포함하는 새로운 공개 데이터셋을 구축하는 것.

제안 방법

공포 이론 주제로 다양한 대규모 언어 모델을 피니튜닝하고 프롬프트를 제공하여 생성된 콘텐츠를 유도하는 것.
1,000개의 공포 이론 주제를 포함하고, Reddit에서 수집한 인간이 작성한 이론과 해당 모델 생성 응답을 짝지어 구성한 새로운 데이터셋을 수집하고 정제하는 것.
자동 평가 및 인간 평가를 통해 기계가 생성한 공포 이론과 인간이 작성한 이론 간의 유사성과 신뢰성(가정 가능성)을 비교하는 것.
제로샷 및 피셔샷 프롬프팅 전략을 적용하여 다양한 프롬프팅 기법이 공포 이론 생성 확률에 어떤 영향을 미치는지 평가하는 것.
모델 활성화 및 주의 텐서 분석을 통해 공포 이론 주제가 모델 가중치에 의미적으로 인코딩되어 있는지 탐지하는 것.
NLP 메트릭(예: BLEU, ROUGE, BERTScore)을 사용하여 모델 출력 결과를 인간이 작성한 이론 기준 벤치마크와 비교하는 것.

실험 결과

연구 질문

RQ1사전 훈련된 언어 모델이 명시적인 지시 없이도 신뢰할 수 있는 공포 이론을 얼마나 잘 생성할 수 있는가?
RQ2기계가 생성한 공포 이론의 언어적 및 구조적 특징은 Reddit에서 인간이 작성한 이론과 어떻게 비교되는가?
RQ3다른 프롬프팅 전략이나 모델 하이퍼파라미터 설정이 공포 이론 콘텐츠 생성 확률을 높이는가?
RQ4사전 훈련 데이터에 존재하는 특정 공포 이론 주제가 더 자주 생성되는가?
RQ5기계가 생성한 공포 이론은 인간이 작성한 버전과 비교해 일관성과 신뢰성 측면에서 어떻게 다른가?

주요 결과

많은 잘 알려진 공포 이론 주제들이 사전 훈련된 언어 모델의 가중치에 명백히 내장되어 있으며, 피니튜닝 없이도 그러한 특성이 유지된다.
기계가 생성한 공포 이론은 언어적 품질과 신뢰성 측면에서 인간이 작성한 이론과 거의 구분되지 않는다.
다양한 프롬프팅 전략이 생성된 공포 이론의 빈도와 일관성에 상당한 영향을 미치며, 일부 설정에서는 이들의 확산 빈도가 증가한다.
새로운 데이터셋은 모델이 실제 Reddit 게시물의 구조와 내용을 그대로 반영한 복잡하고 세부적인 공포 이론 서사를 재현할 수 있음을 드러낸다.
특히 인터넷에서 높은 노출도를 가진 공포 이론 주제들은 훈련 데이터 내 통계적 빈도로 인해 더 자주 생성되는 경향이 있다.
인간 평가자들이 기계가 생성한 공포 이론을 인간이 작성한 것으로 잘못 식별하는 경우가 빈번히 발생하여, 출력 결과의 높은 현실감을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.