[논문 리뷰] NELA-GT-2020: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles
NELA-GT-2020는 2020년 동안 519개의 출처에서 발표된 178만 개의 영어 뉴스 기사로 구성된 대규모 다중 레이블 뉴스 데이터셋으로, Media Bias/Fact Check의 출처 수준 신뢰도 레이블과 41만 개 이상의 임bedded 트윗을 포함하고 있다. 이 데이터셋은 코로나19 팬데믹과 2020년 미국 대선과 같은 고영향력 사건 기간 동안의 가짜정보, 미디어 신뢰성, 소셜미디어-신문 간 상호작용 연구를 가능하게 한다.
In this paper, we present an updated version of the NELA-GT-2019 dataset, entitled NELA-GT-2020. NELA-GT-2020 contains nearly 1.8M news articles from 519 sources collected between January 1st, 2020 and December 31st, 2020. Just as with NELA-GT-2018 and NELA-GT-2019, these sources come from a wide range of mainstream news sources and alternative news sources. Included in the dataset are source-level ground truth labels from Media Bias/Fact Check (MBFC) covering multiple dimensions of veracity. Additionally, new in the 2020 dataset are the Tweets embedded in the collected news articles, adding an extra layer of information to the data. The NELA-GT-2020 dataset can be found at https://doi.org/10.7910/DVN/CHMUYZ.
연구 동기 및 목표
- 가짜정보 및 출처 신뢰성 연구를 위한 대규모, 장기적, 다중 레이블 뉴스 데이터셋의 부족을 보완하기 위해.
- 시간 범위를 2020년으로 확장하고 데이터량과 출처 다양성을 늘림으로써 이전의 NELA-GT 데이터셋을 보완하기 위해.
- 뉴스 기사에서 임bedded 트윗을 추출하여 뉴스 미디어와 소셜미디어 콘텐츠 간 상호작용을 분석하기 위해.
- 고영향력 사건 기간 동안 미디어 내러티브와 조작에 대한 강력한 기계학습 및 종단적 연구를 지원하기 위해.
- 재현 가능한 연구를 위해 공개된, 잘 문서화된 데이터셋을 SQLite 및 JSON 형식으로 제공하기 위해.
제안 방법
- 2020년 1월 1일부터 12월 31일까지 매일 두 번씩 feedparser 및 goose3 라이브러리를 사용해 자동으로 RSS 피드를 크롤링하여 뉴스 기사를 수집함.
- Media Bias/Fact Check(MBFC)의 사실성 점수를 기반으로 출처 수준의 신뢰도 레이블을 통합하여 '신뢰할 수 없음', '혼합', '신뢰할 만함'으로 분류함.
- goose3 라이브러리를 사용해 뉴스 기사 HTML에서 임bedded 트윗을 추출하고, 트윗 본문, 작성자, 날짜, URL을 별도의 데이터베이스 테이블에 저장함.
- 일致성과 중복 방지를 위해 출처 이름을 소문자로 변환하고 특수문자를 제거하여 표준화함.
- 2020년 3월 25일부터 4월 8일까지 약 3주간의 장애 기간 동안 누락된 데이터를 선형 보간법을 적용하여 추정함으로써 약 15,000개의 기사(전체 데이터셋의 0.8%)를 보완함.
- 구조화된 SQLite 데이터베이스와 각 뉴스 출처별로 JSON 사전 형식으로 데이터셋을 공개하고, 데이터 접근을 위한 공개 코드도 제공함.
실험 결과
연구 질문
- RQ1신뢰도 수준이 다른 뉴스 출판사들이 코로나19 팬데믹과 2020년 미국 대선과 같은 주요 사건을 어떻게 보도하는가?
- RQ2뉴스 기사에 임bedded된 트윗이 뉴스 콘텐츠의 진위성과 내러티브 프레임에 어느 정도 반영되거나 영향을 미치는가?
- RQ3임bedded 트윗의 통합이 기계학습 모델에서 가짜정보 또는 출처 신뢰도 탐지에 기여할 수 있는가?
- RQ4MBFC의 미디어 신뢰도 레이블이 2020년 동안 다양한 뉴스 출처의 기사 수와 주제 분포와 얼마나 관련이 있는가?
- RQ5고영향력 사건 기간 동안 신뢰할 만한, 혼합, 신뢰할 수 없는 뉴스 출판사 간 가짜정보 유포의 시간적 동역학은 어떠한가?
주요 결과
- NELA-GT-2020는 519개 출처에서 온 1,779,127건의 뉴스 기사로 구성되어 있으며, NELA-GT-2019 대비 258개의 새로운 출처가 추가되었으며, 대부분가 극단적 또는 신뢰할 수 없는 출처들임.
- 뉴스 기사에서 수집된 410,432개의 임bedded 트윗이 포함되어 있으며, 각 트윗은 URL을 통해 소스 기사와 연결되고 메타데이터와 함께 저장됨.
- 13~15주차(3월 25일~4월 8일) 동안 발생한 데이터 장애로 약 15,000건의 기사(전체 데이터셋의 0.8%)가 누락되었으며, 이후 연속성을 확보하기 위해 보간 처리됨.
- 이전에 정치적 콘텐츠에 집중했던 것과 달리, 건강 관련 및 일반 뉴스 주제에 대한 커버리지가 크게 증가함.
- 신뢰도 클래스(신뢰할 만함, 혼합, 신뢰할 수 없음) 별 기사 및 임bedded 트윗의 분포는 균형 잡혀 있으며, 비교 분석이 가능하도록 문서화됨.
- 결합된 NELA-GT 데이터셋을 통해 3.5년 이상의 뉴스 데이터를 확보할 수 있어, 가짜정보 탐지 모델의 탄력성 검증이 가능함.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.