QUICK REVIEW

[논문 리뷰] Textual misinformation on Reddit

Nakamura, Kai, Levy, Sharon|arXiv (Cornell University)|2019. 11. 10.

Misinformation and Its Impacts참고 문헌 19인용 수 58

한 줄 요약

본 논문은 Reddit에서 수집한 Fakeddit라는 대규모 다중모달 가짜 뉴스 데이터셋을 도입하고, 2-, 3-, 및 6-way 세부 라벨을 제공하며, 텍스트+이미지의 다중모달 모델이 가짜 뉴스 탐지 성능을 향상시킨다는 것을 보여준다.

ABSTRACT

Fake news has altered society in negative ways in politics and culture. It has adversely affected both online social network systems as well as offline communities and conversations. Using automatic machine learning classification models is an efficient way to combat the widespread dissemination of fake news. However, a lack of effective, comprehensive datasets has been a problem for fake news research and detection model development. Prior fake news datasets do not provide multimodal text and image data, metadata, comment data, and fine-grained fake news categorization at the scale and breadth of our dataset. We present Fakeddit, a novel multimodal dataset consisting of over 1 million samples from multiple categories of fake news. After being processed through several stages of review, the samples are labeled according to 2-way, 3-way, and 6-way classification categories through distant supervision. We construct hybrid text+image models and perform extensive experiments for multiple variations of classification, demonstrating the importance of the novel aspect of multimodality and fine-grained classification unique to Fakeddit.

연구 동기 및 목표

기존 가짜 뉴스 데이터셋의 한계를 보완하기 위해 세밀한 라벨을 가진 대규모 다중모달 데이터셋을 제공한다.
소셜 미디어의 텍스트, 이미지 및 메타데이터를 활용하는 강인한 가짜 뉴스 탐지기를 개발하도록 가능하게 한다.
다양한 라벨 세분화에서 다중모달의 분류 성능에 미치는 영향을 평가한다.
댓글 및 메타데이터를 활용한 암시적 팩트체크 및 잠재적 하류 응용에 대한 통찰을 제공한다.

제안 방법

22개의 서브레딧에서 텍스트, 이미지, 댓글, 메타데이터를 포함하는 대규모 다중모달 데이터셋을 구성하고 distant supervision labeling을 적용한다.
샘플당 2-way, 3-way, 및 6-way 가짜 뉴스 라벨을 제공하여 이진 및 세분화된 분류를 모두 지원한다.
InferSent와 BERT를 사용하여 텍스트 임베딩을 추출하고, VGG16, ResNet50, EfficientNet을 사용하여 이미지 특징을 추출한다.
학습 가능한 밀집 층과 병합 전략(add, concatenate, maximum, average)을 통해 텍스트와 이미지 특징을 결합한다.
Hyperband를 사용하여 하이퍼파라미터를 튜닝하고, 은닉층 크기와 학습률을 최적화하며, 검증 및 테스트 분할에서 결과를 보고한다.
2-, 3-, 및 6-way 분류에서 텍스트 단독, 이미지 단독 및 다중모달(text+image) 구성을 평가한다.

실험 결과

연구 질문

RQ1다중모달 데이터(text+image)가 텍스트 단독 또는 이미지 단독 기준선에 비해 가짜 뉴스 탐지 성능에 어떤 영향을 미치는가?
RQ2세밀한(2-, 3-, 6-way) 라벨링이 탐지 정확도에 미치는 영향은 무엇인가?
RQ3Reddit 서브레딧의 distant supervision이 대규모 가짜 뉴스 데이터셋에 신뢰할 수 있는 라벨을 제공할 수 있는가?
RQ4다양한 이미지/텍스트 특징 추출기와 융합 전략이 다중모달 가짜 뉴스 분류에서 어떻게 비교되는가?

주요 결과

결합 방법	2-way 검증	2-way 테스트	3-way 검증	3-way 테스트	6-way 검증	6-way 테스트
Maximum (BERT+ResNet50)	0.8929	0.8909	0.8905	0.8890	0.8600	0.8588

다중모달 모델(text+image)은 2-, 3-, 및 6-way 작업에서 텍스트 단독 및 이미지 단독 기준선을 능가한다.
최대 융합(maximum fusion) 방법으로 BERT 텍스트 특징과 ResNet50 이미지 특징을 결합한 모델이 가장 강력한 전체 성능을 달성했으며, 6-way 정확도는 분할에 따라 약 0.859~0.889 범위였다.
텍스트 특징이 일반적으로 이미지 특징 단독보다 더 강한 신호를 제공했고, 두 가지를 결합하는 것이 최상의 결과를 냈다.
데이터셋은 1,063,106개의 샘플을 포함하며 그 중 628,501개는 가짜, 527,049개는 진짜 샘플이고, 다중모달 샘플은 682,996개를 포함한다.
품질 보증 및 distant supervision은 노이즈를 도입하지만 대규모 다중모달 데이터에 라벨링을 확장 가능한 접근법을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.