QUICK REVIEW

[논문 리뷰] Unmasking Bias in News

Javier Sánchez-Junquera, Paolo Rosso|arXiv (Cornell University)|2019. 06. 11.

Misinformation and Its Impacts인용 수 2

한 줄 요약

이 논문은 내용과 스타일의 영향을 분리하기 위해 마스킹 기법을 사용하여 초과파르티잔 뉴스 탐지에 대해 조사한다. 높은 빈도어를 마스킹하여 스타일을 강조하거나 주제 특화 단어를 유지하여 내용을 강조함으로써, 저자들은 내용 기반 특징—특히 문자 5-그램—이 스타일 기반 모델과 이전 최고 성능 모델을 모두 능가하는 결과를 얻었으며, 이는 이념적으로 유사한 출처들 간의 어휘 겹침이 암묵적 편향 탐지에 더 세밀한 데이터셋이 필요함을 시사한다.

ABSTRACT

We present experiments on detecting hyperpartisanship in news using a 'masking' method that allows us to assess the role of style vs. content for the task at hand. Our results corroborate previous research on this task in that topic related features yield better results than stylistic ones. We additionally show that competitive results can be achieved by simply including higher-length n-grams, which suggests the need to develop more challenging datasets and tasks that address implicit and more subtle forms of bias.

연구 동기 및 목표

내용이냐 글쓰기 스타일이냐가 초과파르티잔 뉴스 탐지에 더 예측력이 있는지 조사하기.
마스킹 기법이 초과파르티잔 뉴스 탐지에서 스타일적 특징와 주제적 특징을 효과적으로 분리하고 평가하는 데 얼마나 효과적인지 평가하기.
기존 특징 세트보다 더 높은 길이의 n-그램이 성능 향상에 기여하는지 결정하기.
현재의 데이터셋이 뉴스에서 암묵적 편향의 미묘한 형태를 탐지하는 데 충분히 도전적인지 평가하기.

제안 방법

특정 단어를 별표나 숫자 기호로 대체하여 텍스트를 변형하는 마스킹 기법을 적용함으로써, 구조는 유지하면서 내용이나 스타일을 분리한다.
스타일 기반 모델링을 위해 k개의 가장 빈도가 높은 단어를 마스킹하고, 희귀어를 남겨 스타일 패턴을 반영한다.
주제 기반 모델링을 위해 k개의 가장 빈도가 높은 단어는 유지하고, 나머지 모든 단어는 마스킹하여 주제적 내용을 강조한다.
이 방법은 문자 수준의 5-그램을 특징으로 사용하며, 이는 더 작은 n-그램과 전통적인 어휘 특징보다 성능이 뛰어나다.
SVM를 사용하여 모델을 학습하고, scikit-learn를 통해 특징 가중치를 추출하여 분류에 기여하는 단어를 식별한다.
랜덤 오버샘플링을 통한 균형 잡힌 학습을 위해 BuzzFeed-Webis 가짜 뉴스 코퍼스 2016의 정제된 버전을 사용한다.

실험 결과

연구 질문

RQ1내용이냐 글쓰기 스타일이냐가 초과파르티잔 뉴스 탐지에 더 강한 영향을 미치는가?
RQ2마스킹 기법이 스타일과 내용이 분류 성능에 기여하는 바를 효과적으로 분리하고 평가할 수 있는가?
RQ3더 높은 길이의 n-그램(예: 5-그램)이 낮은 길이의 n-그램이나 전통적 특징보다 탐지 성능을 향상시키는가?
RQ4이념적으로 유사한 출처들 간의 어휘 겹침이 현재의 탐지 방법을 얼마나 심각하게 약화시키는가?

주요 결과

k < 500일 경우 주제 기반 모델(높은 빈도어를 마스킹하고 희귀어를 유지)이 스타일 기반 모델보다 성능이 뛰어나 내용 특징이 스타일 특징보다 더 분류에 유의미한 영향을 미친다는 것을 시사한다.
마스킹 없이 문자 5-그램을 사용하는 기본 모델이 가장 높은 매크로 F1 스코어를 기록했으며, 이는 마스킹된 모델과 이전 최고 성능 결과를 모두 능가한다.
5-그램 추출이 더 작은 n-그램보다 유의미하게 높은 성능을 보이며, 더 긴 어휘 시퀀스가 초과파르티잔 텍스트에서 더 분류에 효과적인 패턴을 포착함을 시사한다.
주제 기반 모델에서 'donal', 'onald', 'hill', 'llary'와 같은 특징은 매우 관련성이 높으며, 좌익 및 우익 매체에서 도널드 트럼프와 힐러리 클린턴과의 강한 연관성을 보여준다.
스타일 기반 모델에서는 'out', 'you', 'and', 'of'와 같은 기능어가 두드러지게 나타나 스타일적 차이가 고빈도어 조합에 의해 미묘하게 결정됨을 보여준다.
주제 기반 모델에서 CNN 콘텐츠를 기반으로 훈련했을 때 'cnn'이 분류에 기여하는 특징이지만, 이 특징은 테스트 세트에서는 희귀하여 데이터 분포의 변화가 나타남을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.