QUICK REVIEW

[논문 리뷰] Machine Learning Based Detection of Clickbait Posts in Social Media

Xinyue Cao, Thai Le|arXiv (Cornell University)|2017. 10. 05.

Misinformation and Its Impacts참고 문헌 2인용 수 25

한 줄 요약

이 논문은 헤드라인, 대상 콘텐츠 및 그들의 의미적 유사성에서 유도된 60개의 고영향도 특징 셋을 활용하여 소셜 미디어에서 클릭베이트 게시물을 탐지하기 위한 머신러닝 접근법을 제안한다. 클릭베이트 챌린지 2017 데이터셋을 기반으로 랜덤 포레스트 회귀를 사용한 모델은 클릭베이트 클래스에서 MSE 0.035, 정확도 0.82, F1 점수 0.61를 기록하며, 게시물 및 대상 텍스트의 언어적 및 구조적 특징이 클릭베이트 의도를 강력하게 예측할 수 있음을 보여준다.

ABSTRACT

Clickbait (headlines) make use of misleading titles that hide critical information from or exaggerate the content on the landing target pages to entice clicks. As clickbaits often use eye-catching wording to attract viewers, target contents are often of low quality. Clickbaits are especially widespread on social media such as Twitter, adversely impacting user experience by causing immense dissatisfaction. Hence, it has become increasingly important to put forward a widely applicable approach to identify and detect clickbaits. In this paper, we make use of a dataset from the clickbait challenge 2017 (clickbait-challenge.com) comprising of over 21,000 headlines/titles, each of which is annotated by at least five judgments from crowdsourcing on how clickbait it is. We attempt to build an effective computational clickbait detection model on this dataset. We first considered a total of 331 features, filtered out many features to avoid overfitting and improve the running time of learning, and eventually selected the 60 most important features for our final model. Using these features, Random Forest Regression achieved the following results: MSE=0.035 MSE, Accuracy=0.82, and F1-sore=0.61 on the clickbait class.

연구 동기 및 목표

사용자를 과장되거나 오해의 소지가 있는 제목으로 속이는 소셜 미디어의 클릭베이트 헤드라인을 식별하기 위한 확장 가능하고 데이터 기반의 방법을 개발하기 위해.
클릭베이트 행동의 가장 예측 가능한 지표를 식별하기 위해 헤드라인과 대상 콘텐츠에서 유도된 총 331개의 특징을 추출하고 평가하기 위해.
피셔 스코어 기반 특징 선택을 통해 유일한 60개의 중요 특징만을 선택하여 모델 성능을 향상시키고 과적합을 줄이기 위해.
선택된 특징에 대해 여러 머신러닝 모델을 평가하고 클릭베이트 탐지에 최적의 구성 요건을 식별하기 위해.
특히 인간 평가자가 높은 이견을 보이는 모호한 케이스에서의 모델 한계를 분석하기 위해.

제안 방법

저자들은 클릭베이트 챌린지 2017에서 21,000개의 소셜 미디어 헤드라인을 수집하고 처리하였으며, 각 항목은 최소 5명의 커뮤니티 워커에 의해 주석 처리되었다.
어휘적, 문법적, 의미적 지표를 포함한 331개의 특징을 설계하였으며, 이는 품사 태그 빈도, 물음표 사용, 감성 강도, 헤드라인과 대상 콘텐츠 간의 유사도 등이다.
피셔 스코어를 사용하여 특징 선택을 수행하여 유의미한 특징 60개만 순위를 매겨 유지함으로써 과적합을 줄이고 계산 효율성을 향상시켰다.
최종 모델은 랜덤 포레스트 회귀 및 분류기를 사용하여 훈련하였으며, 하이퍼파라미터는 훈련 세트에서 10겹 교차 검증을 통해 최적화되었다.
평가를 위해 연속적인 클릭베이트 점수를 이진 클릭베이트/비클릭베이트 예측으로 변환하기 위해 임계값 0.5를 사용하였다.
오차 분석을 통해 잘못 분류된 인스턴스의 모델 신뢰도와 인간 주석의 모호성을 평가하였다.

실험 결과

연구 질문

RQ1헤드라인과 대상 콘텐츠에서 유도된 언어적 및 구조적 특징 중 클릭베이트 행동을 가장 잘 예측하는 것은 무엇인가?
RQ2게시물과 대상 콘텐츠 양쪽에서 유도된 특징을 포함할 경우, 단지 헤드라인만을 사용하는 모델에 비해 클릭베이트 탐지 성능는 어떻게 향상되는가?
RQ3특징 선택과 모델 선택이 클릭베이트 탐지 성능에 미치는 영향은 어느 정도이며, 특히 F1 점수와 MSE 측면에서 어떻게 나타나는가?
RQ4왜 인간 주석이 높은 변동성을 보이는 모호한 케이스에서는 모델이 분류에 어려움을 겪는가?
RQ5머신러닝 모델이 실제 세계의 커뮤니티 주석 처리된 클릭베이트 데이터셋에서 높은 정확도와 F1 점수를 달성할 수 있는가?

주요 결과

랜덤 포레스트 분류기는 클릭베이트 클래스에서 F1 점수 0.61을 기록하여 클릭베이트와 비클릭베이트 콘텐츠를 효과적으로 구분하는 강력한 성능을 보였다.
모델은 MSE 0.035와 정확도 0.82를 기록하여 클릭베이트 챌린지 2017 데이터셋에서 높은 예측 성능를 입증하였다.
게시물 관련 특징 그룹이 가장 뛰어난 전반적인 성능를 보였으며, 특히 MSE를 최소화하고 정확도를 극대화하는 데 기여했다.
특징 선택을 통해 특징 수를 331개에서 60개로 줄여 모델의 효율성을 크게 향상시키고 과적합을 감소시켰다.
잘못 분류된 인스턴스의 약 48%는 평균 주석 점수가 0.33에서 0.66 사이에 있었으며, 이는 인간 레이블링의 모호성이 모델 일반화에 있어 핵심 과제임을 시사한다.
상위 60개 특징으로는 품사 패턴, 구두점 사용(예: 물음표), 헤드라인과 대상 간의 의미적 유사도 등이 포함되어 있으며, 이는 클릭베이트를 가장 효과적으로 예측하는 지표로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.