[논문 리뷰] Controversy and Sentiment in Online News
이 논문은 감성 및 편향 어휘사전을 사용하여 미국 뉴스에서 논란이 되는 주제가 어떻게 다루어지는지를 데이터 기반으로 측정하는 방법을 제안한다. 15개 뉴스 매체에서 수집한 수백만 건의 기사 분석을 통해 논란이 되는 주제는 더 많은 부정적 감성과 편향된 언어를 사용하지만, 강한 정서적 언어는 덜 사용하는 것으로 나타났다—이는 자기검열의 징후로 해석된다. 또한 편향어휘는 논란의 정도를 강력하게 예측하는 데 기여한다.
How do news sources tackle controversial issues? In this work, we take a data-driven approach to understand how controversy interplays with emotional expression and biased language in the news. We begin by introducing a new dataset of controversial and non-controversial terms collected using crowdsourcing. Then, focusing on 15 major U.S. news outlets, we compare millions of articles discussing controversial and non-controversial issues over a span of 7 months. We find that in general, when it comes to controversial issues, the use of negative affect and biased language is prevalent, while the use of strong emotion is tempered. We also observe many differences across news sources. Using these findings, we show that we can indicate to what extent an issue is controversial, by comparing it with other issues in terms of how they are portrayed across different media.
연구 동기 및 목표
- 온라인 뉴스 미디어에서 논란이 되는 이슈가 언어적으로 어떻게 프레임화되는지 이해하는 것.
- 논란이 되는 주제와 그렇지 않은 주제 사이에서 감성과 편향된 언어가 체계적으로 어떻게 다를지 조사하는 것.
- 어휘 자원을 활용하여 뉴스 보도의 논란 수준을 추정할 수 있는 계산적 방법을 개발하는 것.
- 다양한 뉴스 매체 간 언어적 프레임링 차이를 비교하여 언어 사용에서 조직적 편향이 존재하는지 밝혀내는 것.
- 미래 연구를 위해 공개 가능한 논란이 되는, 다소 논란이 되는, 논란이 되지 않는 용어의 데이터셋을 제공하는 것.
제안 방법
- 각 용어당 10명의 평가자들이 참여한 커뮤니티 기반 작업을 통해 논란이 되는 용어와 논란이 되지 않는 용어의 새로운 데이터셋을 구축했다.
- 2013년 3월부터 9월까지 7개월 간 15개 주요 미국 뉴스 매체(예: CNN, NYT, Reuters)에서 700만 건의 뉴스 기사를 수집하고 분석했다.
- 네 가지 감성 어휘사전(예: NRC, SentiStrength)을 적용하여 기사 텍스트의 긍정적 및 부정적 정서를 측정했다.
- 위키백과 토론에서 유래한 편향 어휘사전을 사용하여 이데올로기적으로 치중되거나 판단을 담고 있는 언어를 탐지했다.
- 레이블이 부여된 용어를 학습 데이터로 사용하여 감성 및 편향어휘 빈도를 기반으로 논란 수준을 예측하는 분류기를 훈련시켰다.
- 특정 주제(예: 'democrats', 'murder')에 대해 각 매체의 상위 편향어 및 감성어를 분석하여 뉴스 매체 간 언어 사용 방식을 비교했다.
실험 결과
연구 질문
- RQ1논란이 되는 주제를 다룬 기사와 그렇지 않은 기사에서 감성, 특히 부정적 감성과 강한 정서적 언어의 사용 방식은 어떻게 다를까?
- RQ2편향된 어휘(예: 'terrorist', 'criminal')가 논란이 되는 주제와 함께 자주 공현하는가? 그리고 논란 수준을 예측할 수 있는가?
- RQ3다양한 뉴스 매체는 동일한 논란이 되는 주제를 언어적으로 어떻게 다르게 프레임화하는가?
- RQ4뉴스 기사 작성에서 자기검열의 증거가 존재하는가? 예를 들어 논란이 되는 맥락에서 강한 정서적 언어 사용이 줄어드는가?
- RQ5감성 및 편향 어휘사전에서 유래한 어휘적 특징을 사용하여 뉴스 주제의 논란 정도를 자동으로 추정할 수 있는가?
주요 결과
- 모든 네 종류의 감성 어휘사전에서 논란이 되는 주제는 부정적 감성어의 빈도가 높고, 긍정적 감성어의 사용 빈도가 낮게 나타났다.
- 논란이 되는 주제에서는 강한(강도가 높은) 어휘 사용 빈도가 논란이 되지 않는 주제보다 유의미하게 낮아, 뉴스 매체에서 자기검열이 일어나고 있음을 시사한다.
- 편향어(예: 'terrorist', 'criminal', 'justice', 'rights')는 논란이 되는 주제 기사에서 더 자주 나타나며, 논란 수준을 강력한 예측 변수로 기능한다.
- 뉴스 매체 간 언어적 프레임링에서 상당한 차이가 있다: 예를 들어 허핑턴포스트는 'democrats'에 대해 'very'와 'good' 같은 주관적 어휘를 더 많이 사용하는 반면, CNN과 레이터스는 더 공식적 또는 기관적인 언어를 더 많이 사용한다.
- 작은 지역 뉴스 매체(예: 필라델피아 인퀴어러, 호놀룰루 스타아드바이저)는 폭력 사건을 다룰 때 특정 인물이나 장소(예: 'victim', 'university')에 초점을 맞추는 경향이 있지만, 국립 매체는 더 넓은 기관을 강조한다.
- 일부 모호한 용어들(예: 'oil', 'drug')은 맥락에 따라 논란이 될 수 있음에도 불구하고, 맥락 의존 분석이 부족해 비논란으로 잘못 분류된 사례가 있었다. 이는 향후 연구에서 맥락 인식 기반 분석의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.