QUICK REVIEW

[논문 리뷰] Automated Multilingual Detection of Pro-Kremlin Propaganda in Newspapers and Telegram Posts

Veronika Solopova, Oana-Iuliana Popescu|arXiv (Cornell University)|2023. 01. 01.

Hate Speech and Cyberbullying Detection인용 수 2

한 줄 요약

이 논문은 2022년 러시아-우크라이나 전쟁 기간 동안 우크라이나어, 러시아어, 루마니아어, 영어로 작성된 뉴스 기사와 텔레그램 게시물에서 프로-크렘린 선전을 탐지하기 위해 언어학적 특징 엔지니어링과 다국어 BERT를 비교하는 두 가지 다국어 접근법을 제안한다. 수식, 숫자, 고유명사 등은 그대로 유지하며 자연어 텍스트만 번역한다. 연구 결과, 수작업으로 구성한 언어학적 특징은 다양한 언어와 분포 간에 더 높은 강건성과 해석 가능성(해석 가능성)을 보이며, BERT 모델은 뛰어난 성능을 내지만 잘못된 경고(false positives)와 토큰 길이 제약으로 인해 문제가 발생하여, 콘텐츠 모니터링에서 투명성과 확장성 사이의 상충 관계를 드러낸다.

ABSTRACT

The full-scale conflict between the Russian Federation and Ukraine generated an unprecedented amount of news articles and social media data reflecting opposing ideologies and narratives. These polarized campaigns have led to mutual accusations of misinformation and fake news, shaping an atmosphere of confusion and mistrust for readers worldwide. This study analyses how the media affected and mirrored public opinion during the first month of the war using news articles and Telegram news channels in Ukrainian, Russian, Romanian, French and English. We propose and compare two methods of multilingual automated pro-Kremlin propaganda identification, based on Transformers and linguistic features. We analyse the advantages and disadvantages of both methods, their adaptability to new genres and languages, and ethical considerations of their usage for content moderation. With this work, we aim to lay the foundation for further development of moderation tools tailored to the current conflict.

연구 동기 및 목표

2022년 러시아-우크라이나 전쟁 기간 동안 뉴스 및 소셜 미디어에서 자동화되고 투명하며 설명 가능한 도구를 개발하기 위해.
키워드 변화에 의존하지 않고도 다양한 언어와 미디어 유형 간에 선전을 신뢰성 있게 탐지할 수 있는 언어학적 특징의 가능성을 조사하기 위해.
자동화된 콘텐츠 모니터링에서 해석 가능성(수작업 특징)과 성능(신경망) 사이의 상충 관계를 평가하기 위해.
특히 잘못된 경고로 자유로운 표현을 억압하거나 선전이 퍼질 수 있는 경우가 발생할 수 있는 윤리적 문제를 다루기 위해.
특히 우크라이나어와 러시아어와 같이 자원이 부족한 언어를 위한 현지 모니터링 및 사용자 지원을 위해 오픈소스 데이터와 코드 기여하기 위해.

제안 방법

2022년 전쟁 첫 달 동안, 확인된 사실 기반 및 가짜 뉴스 매체에서 우크라이나, 러시아, 루마니아, 영국/미국 등 영어권에서 기사 수집.
구문 복잡도, 정서 극성, 어휘 다양성, 그리고 비유적 표현(예: 미화 표현, 도덕적 분노)과 같은 언어학적 특징을 추출하여 선전 패tern을 표현.
스타일 및 문법적 신호를 기반으로 선전를 탐지하기 위해 정규화된 특징 벡터를 사용한 서포트 벡터 머신(SVM) 분류기 구축.
동일한 데이터에 대해 미세조정된 다국어 BERT 모델을 훈련하여 문맥 임베딩을 기반으로 텍스트를 프로-크렘린 또는 프로-서방으로 분류.
초기화된 하이퍼파라미터 튜닝을 위해 그리드 서치 적용: SVM에 대해 RBF 커널, gamma=100, C=46; BERT에 대해 초기 학습률 1e-4, 4 에포크, 배치 크기 16.
모델을 언어 및 미디어 유형 간에 분리된 테스트 세트로 평가하여 성능, 특징 중요도, 클래스 분포 이동 분석.

실험 결과

연구 질문

RQ1키워드에 의존하지 않고도 여러 언어(우크라이나어, 러시아어, 루마니아어, 영어)에서 선전을 신뢰성 있게 탐지할 수 있는가?
RQ2BERT 기반 모델은 다국어 전쟁 관련 뉴스 및 텔레그램 콘텐츠에서 수작업 특징 기반 모델보다 어떻게 비교되는가?
RQ3자동화된 콘텐츠 모니터링에서 모델의 해석 가능성(특징 기반)과 성능(신경망) 사이의 상충 관계는 무엇인가?
RQ4모델 성능과 잘못된 경고/거짓 부정 비율은 다양한 언어와 미디어 장르(신문 대비 텔레그램) 간에 어떻게 달라지는가?
RQ5이러한 도구를 배포함으로써 발생할 수 있는 윤리적 리스크는 무엇인가, 특히 정당한 표현 억압이나 에코 캐빈 형성 증폭과 관련하여.

주요 결과

수작업 언어학적 특징 기반 모델(SVM)은 언어 및 데이터 분포 간에 일관된 성능을 보이며 주제 변화나 전쟁 관련 어휘 변화에 강건함을 입증.
BERT 기반 모델은 전체 정확도에서 SVM을 능가했지만, 특히 분포 외 데이터에서 잘못된 경고 비율이 높아 정당한 콘텐츠 억압 위험 존재.
수작업 특징은 다양한 언어 간에 더 높은 해석 가능성과 안정성을 보였으며, 새로운 장르나 언어로 테스트해도 성능 저하가 최소한이었다.
키워드는 새로운 데이터에서만 SVM 성능 향상에 기여했으며, 이는 의미적 이해가 형태구문 패턴보다 더 중요함을 시사.
BERT 모델의 성능은 토큰 길이 제약으로 제한되었고, 주요 어휘 변화가 발생할 경우 재학습이 필요해 확장성 저하.
양쪽 모델 모두 일부 경우에 프로-서방 콘텐츠를 선전으로 잘못 탐지했으며, 이는 자동화 도구가 에코 캐빈과 서사 편향을 완화하기보다는 증폭시킬 수 있음을 시사.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.