QUICK REVIEW
[논문 리뷰] Code and data for "Understanding news story chains using information retrieval and network clustering techniques"
Tom Nicholls, Jonathan Bright|arXiv (Cornell University)|2018. 03. 21.
Computational and Text Analysis Methods참고 문헌 47인용 수 28
한 줄 요약
이 논문은 대규모 기사 코퍼스에서 기사 간 쌍별 유사도를 위한 정보 검색 기법과 네트워크 클러스터링(Infomap)을 융합하여 뉴스 스토리 클러스터를 자동으로 탐지하는 방법을 제시한다. 61,864건의 영국 뉴스 기사에 적용한 결과, 높은 정확도로 스토리 클러스터를 식별하였으며, 뉴스 생산의 50퍼센트 이상이 이러한 스토리 체인 내에서 이루어지는 것으로 드러나, 미디어 및 커뮤니케이션 연구의 가시적 분석 단위로 유용함을 보여준다.
ABSTRACT
This is an implementation of a new news story clustering technique, described in <br> arXiv:1801.07988 and in our paper at ICA '18. It includes proof-of-concept Python 3 and R code together with a sample dataset for replication of the results in the paper.
연구 동기 및 목표
- 미디어 연구에서 이론적으로 중요한데도 다루지 않은 뉴스 스토리 클러스터를 식별하기 위한 확장 가능한 방법의 부족을 해결하기 위해.
- 개별 기사 수준 분석을 넘어서 대규모 코퍼스에서 연결된 뉴스 스토리를 자동으로 탐지할 수 있는 계산적으로 효율적인 접근법을 개발하기 위해.
- 수작업으로 코딩한 데이터를 활용해 방법의 타당성을 검증하고, 영국 미디어에서 뉴스 스토리의 보편성과 역학적 특성을 분석하는 데의 유용성을 입증하기 위해.
- 연구자들이 뉴스 스토리라는 새로운 분석 단위를 활용해 미디어의 의제 설정, 게이트키핑, 보도 패턴 등을 더 깊이 있게 연구할 수 있도록 지원하기 위해.
제안 방법
- 코퍼스 내 모든 기사 쌍 간의 텍스트 유사도를 계산하기 위해 정보 검색 기법, 특히 BM25를 사용한다.
- 계산 복잡도를 줄이기 위해 시간 창을 적용하여 정해진 시간 범위 내에 발표된 기사들 간의 쌍별 비교에 국한한다.
- 유사도 점수가 임계값을 초과하는 경우에만 간선으로 간주하여 기사들을 노드로, 유사도 점수를 간선으로 하는 유사도 그래프를 구성한다.
- 구조적 유사성에 기반해 기사들을 독립된 스토리 그룹으로 클러스터링하기 위해 네트워크의 커뮤니티 탐지에 Infomap 알고리즘을 적용한다.
- 클러스터링 결과의 정밀도, 재현율, F1 점수를 평가하기 위해 소규모 수작업 코딩 데이터셋을 활용해 결과를 검증한다.
- 더 큰 스토리 내에서의 하위 클러스터를 식별함으로써 계층적 분석이 가능해지며, 복잡한 사건들에 대한 세분화된 보도를 드러낸다.
실험 결과
연구 질문
- RQ1영국 미디어에서 뉴스 스토리 클러스터는 얼마나 보편적인가? 그리고 뉴스 생산의 어느 정도가 이러한 클러스터 내에서 이루어지는가?
- RQ2텍스트 유사도와 네트워크 클러스터링 기반의 자동화된 방법이 수작업 코딩에 비해 얼마나 정확하게 스토리 클러스터를 탐지할 수 있는가?
- RQ3주요 뉴스 이벤트에 대응하여 스토리 클러스터는 어떻게 형성되고, 진화하고, 해체되는가?
- RQ4한 사건의 여러 단계(예: 한 사건의 서로 다른 단계)를 구분할 수 있는지, 이 방법이 큰 사건 내에서 별개의 하위 스토리를 식별할 수 있는가?
- RQ5개별 기사가 아니라 뉴스 스토리를 분석 단위로 사용할 경우, 미디어 및 커뮤니케이션 연구에 어떤 함의가 있는가?
주요 결과
- 영국 미디어 코퍼스에서 뉴스 생산의 50퍼센트 이상이 스토리 클러스터 내에서 이루어지며, 이는 미디어 출력을 이해하기 위해 스토리 수준의 분석이 필수적임을 시사한다.
- 검증 결과, 높은 성능을 기록하였으며, 수작업 코딩 데이터에서 스토리 클러스터를 식별하는 데 있어 정밀도와 재현율이 모두 뛰어난 F1 점수를 확보하였다.
- 이 방법은 대규모 사건 내에서 하위 클러스터를 성공적으로 식별하였으며, 보스턴 마라톤 폭발사고나 레이 리거비 살해 사건과 같은 사례에서 즉각적인 후속 조치와 법적 절차 단계 등 별개의 서사 단계를 분리하였다.
- Infomap 알고리즘이 계층적 하위 구조를 탐지할 수 있는 능력은 일부 스토리가 개념적으로 구분되는 여러 하위 스토리로 구성되어 있으며, 전체 스토리 수준의 유사성보다도 내부 유사성이 더 강한 경우가 있음을 드러냈다.
- 결과적으로 뉴스 매체가 주요 사건을 다면적인 서사로 다루며, 서로 다른 보도 단계를 분리 가능한 계산적 단위로 처리한다는 점을 시사한다.
- 이 접근법은 뉴스를 스토리 수준에서 스케일러블하고 자동화된 방식으로 분석할 수 있게 하여, 대규모 미디어 연구에서 수작업 코딩에 비해 실용적인 대안을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.