[論文レビュー] 205.1 Measuring News Similarity Across Ten U.S. News Sites.
本論文は、インターネット・アーカイブのアーカイブド・ホームページ・メメントを用いて、10の米国ニュースWebサイト間のニュース類似度を測定する手法を提案する。CSSセレクタに基づくパースィングにより、トップ-kヘッドライン(k=1, 3, 10)を抽出し、東部標準時20時におけるコサイン類似度を計算することで、2016年米国大統領選挙や旅行禁止令発表のような主要イベント時に類似度がピークに達することが明らかになった。イベント後には、一様な報道が続くため類似度スコアが上昇する。
News websites make editorial decisions about what stories to include on their website homepages and what stories to emphasize (e.g., large font size for main story). The emphasized stories on a news website are often highly similar to many other news websites (e.g, a terrorist event story). The selective emphasis of a top news story and the similarity of news across different news organizations are well-known phenomena but not well-measured. We provide a method for identifying the top news story for a select set of U.S.-based news websites and then quantify the similarity across them. To achieve this, we first developed a headline and link extractor that parses select websites, and then examined ten United States based news website homepages during a three month period, November 2016 to January 2017. Using archived copies, retrieved from the Internet Archive (IA), we discuss the methods and difficulties for parsing these websites, and how events such as a presidential election can lead news websites to alter their document representation just for these events. We use our parser to extract k = 1, 3, 10 maximum number of stories for each news site. Second, we used the cosine similarity measure to calculate news similarity at 8PM Eastern Time for each day in the three months. The similarity scores show a buildup (0.335) before Election Day, with a declining value (0.328) on Election Day, and an increase (0.354) after Election Day. Our method shows that we can effectively identity top stories and quantify news similarity.
研究の動機と目的
- アーカイブド・ウェブコンテンツを用いて、米国ニュースWebサイト間でトップニュースストーリーを特定し、類似度を測定する信頼性の高い手法を開発すること。
- 特に2016年米国大統領選挙のような高インパクトイベント時に、動的かつイベントに応じて変化するニュースサイトのレイアウトを処理する課題に対処すること。
- ヘッドラインデータに対するコサイン類似度を用いて、重要な政治的イベントの際の報道の同期度を定量化すること。
- 類似度スコアに与えるk(トップストーリー数)の変動の影響を評価し、時間経過に伴うメディアの注目領域の変化を検出すること。
- アーカイブド・ウェブページ(メメント)のレンダリングの不一致や、重要なイベント中のレイアウト変更に起因するパースィングの困難さを特定・文書化すること。
提案手法
- インターネット・アーカイブからアーカイブド・ニュースホームページ・メメントをCSSセレクタを用いてパースし、東部標準時20時に、トップ-kストーリー(k=1, 3, 10)のヘッドラインとURIを抽出する。
- 視覚的インパクト(位置、フォントサイズ、画像サイズ)に基づき、レイアウト固有のセレクタを用いて「ヘッドラインストーリー」を特定し、パースに失敗した場合にはフォールバックを用いる。
- 10のニュースサイト間で毎日、ヘッドライン集合のコサイン類似度を計算し、ニュースコンテンツの類似度を測定する。
- 2016年大統領選挙のような主要イベント中にHTML構造が変更されたサイトに対しては、複数のCSSセレクタ集合を維持することでパースロジックを適応させる。
- 時間的サンプリングの一貫性を確保し、ライブウェブのばらつきを避けるために、2016年11月から2017年1月のアーカイブド・メメントを用いる。
- k値の異なる場合における類似度スコアを評価し、感度を測定し、報道の同期パターンを検出する。
実験結果
リサーチクエスチョン
- RQ1アーカイブド・ウェブコンテンツを用いて、多様な米国ニュースWebサイト間でトップニュースストーリーを一貫して特定する方法は何か?
- RQ22016年米国大統領選挙のような主要な政治的イベント時には、ニュース報道がどの程度各メディア間で同期するか?
- RQ3高インパクトイベント中のウェブサイトのレイアウトおよびHTML構造の変更が、自動ニュースパースィングの信頼性に与える影響は何か?
- RQ4考慮するストーリー数(k)の変化が、ニュースサイト間の測定類似度に与える影響は何か?
- RQ5ヘッドラインデータに対するコサイン類似度は、重要な国家的イベントの前後において、メディアの注目領域の変化を検出できるか?
主な発見
- 2016年米国大統領選挙後にコサイン類似度スコアが0.354に上昇し、報道の同期度が高まったことが示された。
- 選挙期間終了後、類似度スコアは0.417から0.343に低下し、メディアの注目領域の変化と同期度の低下を示唆した。
- 旅行禁止令の発表は、すべてのk値において最高の類似度スコアを記録し、メディア間の強い一致を示した。
- k=1の場合、2017年1月29日に類似度スコア最高の0.504が記録され、トランプ政権の旅行禁止に関する共通のヘッドラインストーリーが要因であった。
- 10のニュースサイトのうち5つが2016年大統領選挙中にHTML構造およびCSS名前付け規則を変更し、正確なパースィングのための動的セレクタ適応が必要となった。
- 一部のニュースサイトのメメントは一貫してレンダリングされず、ヘッドライン抽出に影響を与え、ウェブアーカイブをメディア分析に依存する際のリスクを浮き彫りにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。