[논문 리뷰] Forecasting the presence and intensity of hostility on Instagram using linguistic and social features
이 논문은 초기 댓글의 언어적 및 사회적 특징을 활용하여 인스타그램 댓글에서의 적대감의 존재와 강도를 예측하는 모델을 제안한다. 향후 적대감 존재 예측에 AUC 0.82, 높은 수준 대 저수준 적대감 강도 간 구분에 AUC 0.91를 달성하여, 독성 상호작용이 악화되기 전에 사전에 모니터링할 수 있도록 한다.
Online antisocial behavior, such as cyberbullying, harassment, and trolling, is a widespread problem that threatens free discussion and has negative physical and mental health consequences for victims and communities. While prior work has proposed automated methods to identify hostile comments in online discussions, these methods work retrospectively on comments that have already been posted, making it difficult to intervene before an interaction escalates. In this paper we instead consider the problem of forecasting future hostilities in online discussions, which we decompose into two tasks: (1) given an initial sequence of non-hostile comments in a discussion, predict whether some future comment will contain hostility; and (2) given the first hostile comment in a discussion, predict whether this will lead to an escalation of hostility in subsequent comments. Thus, we aim to forecast both the presence and intensity of hostile comments based on linguistic and social features from earlier comments. To evaluate our approach, we introduce a corpus of over 30K annotated Instagram comments from over 1,100 posts. Our approach is able to predict the appearance of a hostile comment on an Instagram post ten or more hours in the future with an AUC of .82 (task 1), and can furthermore distinguish between high and low levels of future hostility with an AUC of .91 (task 2).
연구 동기 및 목표
- 초기 비적대적 댓글을 바탕으로, 인스타그램 디스커션에서 향후 댓글이 적대적인지 예측하기 위해
- 첫 번째 적대적 댓글이 나타난 후 포스트가 높은 수준의 적대감으로 악화될지를 예측하기 위해
- 향후 적대감을 예고하는 언어적 및 사회적 특징을 규명하여 조기 간섭을 지원하기 위해
- 예측 모델 평가를 위해 30,000개의 주석 처리된 인스타그램 댓글로 구성된 데이터셋을 구축하기 위해
- 모더레이션 우선순위 설정 및 댓글 제어 개선을 위한 플랫폼 수준의 도구를 제공하기 위해
제안 방법
- 모델은 초기 댓글에서 유저를 향한 저속어, 감성, 어휘 다양성 등의 언어적 특징을 사용한다.
- 참여한 유저 수 및 게시자 본인의 이전 적대적 댓글 수신 이력 등의 사회적 특징을 통합한다.
- 순서 모델링 기법을 활용해 시간에 따라 변화하는 대화 역동성을 분석하여 초기 악화 패턴을 탐지한다.
- 30,000개 이상의 주석 처리된 댓글을 포함한 1,100개의 인스타그램 포스트로 구성된 정제된 데이터셋을 기반으로 모델을 훈련한다.
- 두 가지 별개의 작업을 모델링한다: (1) 향후 적대감 존재 예측, (2) 후속 적대감 수준의 강도 예측.
- 이전 대화의 특징을 활용하여, 특히 적대감 이력이 있는 포스트의 예측 정확도를 향상시킨다.
실험 결과
연구 질문
- RQ1댓글 스레드의 초기 언어적 및 사회적 특징이 향후 댓글이 적대적인지 예측할 수 있는가?
- RQ2모델은 향후 높은 수준의 적대감으로 악화되는 디스커션과 저수준 유지 디스커션을 구분할 수 있는가?
- RQ3온라인 디스커션에서 향후 적대감을 예측하는 데 가장 유용한 특정 언어적 및 사회적 특징은 무엇인가?
- RQ4모델은 10시간 이상 앞서 적대감을 예측하는 데 얼마나 효과적인가?
- RQ5이전의 적대감과 사용자 참여 패턴은 향후 갈등 악화를 얼마나 잘 예측하는가?
주요 결과
- 모델은 향후 10시간 이상 떨어진 시점에서 적대적 댓글 존재 여부를 예측할 때 AUC 0.82를 달성한다.
- 모델은 향후 적대감 강도의 높음과 낮음을 구분할 때 AUC 0.91를 달성한다.
- 대화에 참여한 유저 수가 향후 적대감 악화의 강력한 예측 지표이다.
- 게시자에게 이전에 적대적 댓글이 다수 들어온 경우, 향후 적대적 댓글 발생 확률이 크게 증가한다.
- 초기 댓글에서 유저를 향한 저속어 사용은 향후 적대감의 강력한 신호이다.
- 데이터셋의 85% 이상의 적대적 댓글은 초도 키워드 검색으로는 포착되지 않았으며, 이는 단순 어휘집을 넘어서 맥락의 중요성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.