QUICK REVIEW

[논문 리뷰] Fake Cures: User-centric Modeling of Health Misinformation in Social Media

Amira Ghenai, Yelena Mejova|arXiv (Cornell University)|2018. 09. 03.

Misinformation and Its Impacts참고 문헌 71인용 수 23

한 줄 요약

이 연구는 언어 스타일, 정서 및 사용자 특성 분석을 통해 암 치료 오해를 퍼뜨릴 가능성이 높은 트위터 사용자를 식별하기 위한 사용자 중심 모델을 개발한다. 4,212명의 실제 사용자에 대한 다단계 선별 과정을 거쳐 개발된 로지스틱 회귀 분류기는 오해 정보 퍼뜨림 예측에서 90퍼센트 이상의 정확도를 달성하여 공중보건 간 interventions에 활용 가능한 도구를 제공한다.

ABSTRACT

Social media's unfettered access has made it an important venue for health discussion and a resource for patients and their loved ones. However, the quality of the information available, as well as the motivations of its posters, has been questioned. This work examines the individuals on social media that are posting questionable health-related information, and in particular promoting cancer treatments which have been shown to be ineffective (making it a kind of misinformation, willful or not). Using a multi-stage user selection process, we study 4,212 Twitter users who have posted about one of 139 such "treatments", and compare them to a baseline of users generally interested in cancer. Considering features capturing user attributes, writing style, and sentiment, we build a classifier which is able to identify users prone to propagate such misinformation at an accuracy of over 90%, providing a potential tool for public health officials to identify such individuals for preventive intervention.

연구 동기 및 목표

의료 증거에 반해 검증되지 않은 암 '치료법'을 퍼뜨리는 트위터 사용자를 특정하기 위해.
특히 암 치료의 맥락에서 건강 오해 정보를 공유하는 사용자의 행동 및 언어적 특성 이해하기 위해.
일반적인 암 관심을 가진 사용자와 오해 정보를 퍼뜨릴 가능성이 높은 사용자를 구분할 수 있는 예측 모델 개발하기 위해.
공중보건 관계자들이 소셜 미디어에서 건강 오해 정보의 확산을 사전에 모니터링하고 간섭할 수 있도록 도구 제공하기 위해.
향후 건강 커뮤니케이션 및 오해 정보 연구를 위한 공개 가능한 커리티드 데이터셋을 제작하기 위해.

제안 방법

139가지 효과가 입증되지 않은 암 치료법에 대해 게시한 실제 인간 사용자를 특정하기 위해 기계학습, 군중 참여 및 히우리스틱을 조합한 다단계 사용자 선별 파이프라인을 활용하였다.
이름 사전, 조직 분류 및 사용 임계값을 사용하여 봇 및 기관 계정을 걸러내었다.
사용자 특성, 글쓰기 스타일(예: 어휘의 복잡성), 정서 및 게시 시간을 수집하고 분석하였다.
이전 연구에서 확보한 일반적인 암 관심을 가진 사용자 그룹과 비교하여 오해 정보를 퍼뜨리는 사용자를 분석하였다.
사용자 특성, 언어 스타일, 정서 및 게시 시간 특징을 기반으로 로지스틱 회귀 분류기를 훈련하여 오해 정보 확산 가능성을 예측하였다.
보류된 테스트 세트를 사용하여 모델 성능을 검증하였으며, 오해 정보를 퍼뜨릴 가능성이 높은 사용자를 식별하는 데 90퍼센트 이상의 정확도를 달성하였다.

실험 결과

연구 질문

RQ1검증되지 않은 암 치료법을 공유하는 트위터 사용자의 행동 및 언어적 특징은 무엇인가?
RQ2암 오해 정보를 퍼뜨리는 사용자와 일반적인 암 관심을 가진 사용자 간의 언어 사용 및 참여 패턴에서의 차이는 무엇인가?
RQ3글쓰기 스타일, 정서 및 활동 시간과 같은 사용자 수준의 특징이 건강 오해 정보 확산 가능성을 예측할 수 있는가?
RQ4효과가 입증되지 않은 암 치료법을 홍보하는 사용자들은 환자일 가능성이 더 높은가, 아니면 건강 주제에 특화된 비환자일 가능성이 더 높은가?
RQ5트위터 데이터를 기반으로 훈련된 사용자 중심 모델이 건강 오해 정보 확산 가능성이 높은 개인을 얼마나 정확하게 식별할 수 있는가?

주요 결과

효과가 입증되지 않은 암 치료법을 홍보하는 사용자들은 일반적인 암 관심을 가진 사용자보다 더 정교한 언어를 사용하는 경향이 있다.
이러한 사용자들은 일반적으로 암에 직접적으로 영향을 받은 바가 없으며, 개인적 경험 기반으로 공유하고 있지는 않다.
로지스틱 회귀 분류기는 암 오해 정보를 퍼뜨릴 가능성이 높은 사용자를 식별하는 데 90퍼센트 이상의 정확도를 달성하였다.
모델는 질병에 직접 관여하지는 않지만 건강 담론에 참여하는 사용자를 식별하여, 환자가 아닌 영향력 있는 비환자 그룹을 특징으로 한다.
이 연구는 암 치료법에 대한 오해 정보가 일반적으로 환자가 아니라 건강 주제에 깊이 관심을 가진 비환자에 의해 퍼지고 있음을 드러냈다.
4,212명의 사용자로 구성된 커리티드 데이터셋은 향후 건강 오해 정보 및 소셜 미디어 연구에 매우 유용한 고품질 자원을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.