Skip to main content
QUICK REVIEW

[논문 리뷰] 205.1 Measuring News Similarity Across Ten U.S. News Sites.

Grant C. Atkins, Alexander C. Nwala|arXiv (Cornell University)|2018. 01. 01.
Web Data Mining and Analysis참고 문헌 10인용 수 3
한 줄 요약

이 논문은 인터넷 아카이브에서 확보한 홈페이지 미멘토를 활용해 10개의 미국 뉴스 웹사이트 간 뉴스 유사도를 측정하는 방법을 제안한다. CSS 선택자 기반 파싱을 통해 8시 동부시간에 상위-k 헤드라인(k=1, 3, 10)을 추출하고 코사인 유사도를 계산함으로써, 2016년 미국 대선이나 트래블 밴과 같은 주요 사건 기간 동안 뉴스 유사도가 정점에 이르며, 이는 사건 이후 동기화된 보도로 인해 유사도 점수가 상승하는 것으로 드러났다.

ABSTRACT

News websites make editorial decisions about what stories to include on their website homepages and what stories to emphasize (e.g., large font size for main story). The emphasized stories on a news website are often highly similar to many other news websites (e.g, a terrorist event story). The selective emphasis of a top news story and the similarity of news across different news organizations are well-known phenomena but not well-measured. We provide a method for identifying the top news story for a select set of U.S.-based news websites and then quantify the similarity across them. To achieve this, we first developed a headline and link extractor that parses select websites, and then examined ten United States based news website homepages during a three month period, November 2016 to January 2017. Using archived copies, retrieved from the Internet Archive (IA), we discuss the methods and difficulties for parsing these websites, and how events such as a presidential election can lead news websites to alter their document representation just for these events. We use our parser to extract k = 1, 3, 10 maximum number of stories for each news site. Second, we used the cosine similarity measure to calculate news similarity at 8PM Eastern Time for each day in the three months. The similarity scores show a buildup (0.335) before Election Day, with a declining value (0.328) on Election Day, and an increase (0.354) after Election Day. Our method shows that we can effectively identity top stories and quantify news similarity.

연구 동기 및 목표

  • 아카이브된 웹 콘텐츠를 활용해 미국 뉴스 웹사이트 간 상위 뉴스 스토리 식별 및 유사도 측정에 신뢰할 수 있는 방법을 개발하는 것.
  • 특히 2016년 미국 대선과 같은 고영향력 사건 기간 동안 동적이고 이벤트에 의해 수정된 뉴스 사이트 레이아웃을 파싱하는 데 발생하는 과제를 해결하는 것.
  • 헤드라인 데이터에 대해 코사인 유사도를 적용하여 주요 정치적 사건 기간 동안 뉴스 보도가 얼마나 동기화되는지 정량화하는 것.
  • 다양한 k(상위 스토리 수) 값이 유사도 점수에 미치는 영향을 평가하고, 시간에 따라 미디어의 주요 초점 이동을 탐지하는 것.
  • 불일치하는 아카이브된 웹페이지(미멘토)의 렲시 및 사건 기간 동안의 레이아웃 변경으로 인해 발생하는 파싱 곤란을 식별하고 문서화하는 것.

제안 방법

  • 인터넷 아카이브에서 확보한 아카이브된 뉴스 홈페이지 미멘토를 사용해 CSS 선택자를 활용해 헤드라인과 URI를 추출하며, 매일 8시 동부시간에 상위-k 스토리(k=1, 3, 10)를 추출한다.
  • 레이아웃 전용 선택자를 사용해 시각적 두드러짐(위치, 폰트 크기, 이미지 크기)을 기반으로 헤로 스토리(헤로 스토리)를 식별하며, 파싱에 실패할 경우 대체 전략을 적용한다.
  • 매일 열 개의 뉴스 사이트 간 헤드라인 세트를 비교하기 위해 코사인 유사도를 적용하여 뉴스 콘텐츠의 유사도를 측정한다.
  • 2016년 대선 기간 동안 HTML 구조가 변경된 사이트의 경우, 파싱 로직을 유지하며 여러 개의 CSS 선택자 세트를 활용해 동적 적응을 수행한다.
  • 일관된 시간 샘플링을 확보하고 실시간 웹의 변동성을 피하기 위해 2016년 11월부터 2017년 1월까지의 아카이브된 미멘토를 사용한다.
  • 다양한 k 값에 따른 유사도 점수를 평가하여 민감도를 분석하고 뉴스 보도의 동기화 패턴을 탐지한다.

실험 결과

연구 질문

  • RQ1아카이브된 웹 콘텐츠를 활용해 다양한 미국 뉴스 웹사이트 간 상위 뉴스 스토리를 일관되게 식별할 수 있는 방법은 무엇인가?
  • RQ22016년 미국 대선과 같은 주요 정치적 사건 기간 동안 뉴스 보도가 얼마나 동기화되는가?
  • RQ3고영향력 사건 기간 동안 웹사이트 레이아웃과 HTML 구조의 변화가 자동화된 뉴스 파싱의 신뢰성에 어떤 영향을 미치는가?
  • RQ4고려 대상이 되는 스토리 수(k)의 변화가 뉴스 사이트 간 측정된 유사도에 어떤 영향을 미치는가?
  • RQ5헤드라인 데이터에 대해 코사인 유사도를 적용하면 주요 국가적 사건 이전, 동안, 이후의 미디어 주요 초점 이동을 탐지할 수 있는가?

주요 결과

  • 2016년 미국 대선 이후 코사인 유사도 점수가 0.354로 상승하여 뉴스 보도의 동기화가 증가한 것으로 나타났다.
  • 대선 기간 이후 유사도 점수는 0.417에서 0.343으로 감소하여 미디어 주요 초점 이동과 함께 동기화 감소를 시사했다.
  • 트래블 밴 발표는 모든 k 값에서 가장 높은 총합 유사도 점수를 기록하여 출판사 간 강력한 일치를 보였다.
  • 2017년 1월 29일에 k=1일 경우 최고의 유사도 점수 0.504를 기록했으며, 이는 트럼프의 트래블 밴에 대한 공통 헤로 스토리로 인한 것이었다.
  • 10개 뉴스 사이트 중 5개가 2016년 대선 기간 동안 HTML 구조와 CSS 이름 규칙을 변경하여 정확한 파싱을 위해 동적 선택자 적응이 필요했다.
  • 일부 뉴스 사이트의 미멘토는 일관되지 않게 렌더링되어 헤드라인 추출에 영향을 미치며, 웹 아카이브를 미디어 분석에 의존할 경우 위험을 드러냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.