QUICK REVIEW

[논문 리뷰] Is preprocessing of text really worth your time for online comment classification?

Fahim Mohammad|arXiv (Cornell University)|2018. 06. 07.

Hate Speech and Cyberbullying Detection참고 문헌 18인용 수 18

한 줄 요약

이 논문은 온라인 댓글을 유해 또는 건설적인 것으로 분류하기 위해 광범위한 텍스트 전처리가 필수적인지 조사한다. Jigsaw 데이터셋을 사용해 네 가지 최첨단 모델을 적용한 결과, 공격적인 변환보다는 최소한의 전처리 또는 전처리 없이도 성능이 뛰어나다는 것이 밝혀졌으며, 이는 이 분야에서 전처리가 모델 정확도를 크게 향상시킨다는 기존의 통념에 도전한다.

ABSTRACT

A large proportion of online comments present on public domains are constructive, however a significant proportion are toxic in nature. The comments contain lot of typos which increases the number of features manifold, making the ML model difficult to train. Considering the fact that the data scientists spend approximately 80% of their time in collecting, cleaning and organizing their data [1], we explored how much effort should we invest in the preprocessing (transformation) of raw comments before feeding it to the state-of-the-art classification models. With the help of four models on Jigsaw toxic comment classification data, we demonstrated that the training of model without any transformation produce relatively decent model. Applying even basic transformations, in some cases, lead to worse performance and should be applied with caution.

연구 동기 및 목표

기계학습 모델의 온라인 댓글 분류 성능에 대한 텍스트 전처리의 영향을 평가하기 위해.
유해 댓글 탐지의 맥락에서 텍스트 전처리에 소요되는 시간과 노력을 정당화할 수 있는지 판단하기 위해.
원시 텍스트에서부터 강력하게 변형된 입력에 이르기까지 다양한 수준의 전처리를 통해 모델 성능을 비교하기 위해.
최첨단 모델이 광범위한 데이터 정제 없이도 강력한 성능을 달성할 수 있는지 평가하기 위해.

제안 방법

연구는 Jigsaw 유해 댓글 분류 데이터셋에 기반한 네 가지 딥러닝 및 전통적 기계학습 모델을 사용한다.
전처리 수준은 원시 텍스트(변환 없음)에서 시작하여 소문자화, 특수문자 제거, 표준화 등의 단계를 포함한다.
모델 평가에는 AUC-ROC 및 F1-스코어와 같은 표준 지표를 사용하며, 다양한 전처리 설정에서 평가한다.
변수를 통제한 설정에서 실험하여 전처리가 모델 성능에 미치는 영향을 분리해 분석한다.
각 전처리 단계의 기여도를 평가하기 위해 아블레이션 연구를 포함한다.

실험 결과

연구 질문

RQ1광범위한 텍스트 전처리를 적용하면 온라인 댓글 데이터에 대한 분류 모델의 성능이 향상되는가?
RQ2원시 텍스트를 사용할 때와 다양한 수준의 전처리를 사용할 때 모델 성능는 어떻게 달라지는가?
RQ3전처리에 투자된 시간이 분류 정확도 향상으로 이어지는가?
RQ4최첨단 모델은 텍스트 전처리 없이도 강력한 성능을 달성할 수 있는가?

주요 결과

전처리 없이도 원시 텍스트로 훈련된 모델들이 경쟁적인 성능을 보였으며, 종종 광범위한 전처리를 거친 모델보다 뛰어났다.
소문자화 및 구두점 제거와 같은 기본 전처리 단계가 때로 성능 저하를 초래했다.
표준화 및 고급 정제 기법을 사용하더라도 모델 성능 향상이 일관되게 이루어지지 않았으며, 가끔 성능 저하를 유발했다.
연구 결과, 가장 효과적인 모델들은 최소한의 전처리를 거친 데이터로 훈련된 것으로 밝혀졌으며, 이는 현대 모델이 노이즈가 많은 원시 텍스트를 효과적으로 처리할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.