QUICK REVIEW

[論文レビュー] Is preprocessing of text really worth your time for online comment classification?

Fahim Mohammad|arXiv (Cornell University)|Jun 7, 2018

Hate Speech and Cyberbullying Detection参考文献 18被引用数 18

ひとこと要約

この論文は、オンラインコメントを有毒または建設的であると分類する際、広範なテキスト前処理が本当に必要かどうかを調査している。Jigsawデータセットを用いて4つの最先端モデルを用いた実験から、過剰な変換よりも最小限の前処理、あるいは前処理なしのほうがしばしば高い性能を示すことが判明した。これは、この分野において前処理がモデルの正確性を著しく向上させるという一般的な常識に疑問を呈するものである。

ABSTRACT

A large proportion of online comments present on public domains are constructive, however a significant proportion are toxic in nature. The comments contain lot of typos which increases the number of features manifold, making the ML model difficult to train. Considering the fact that the data scientists spend approximately 80% of their time in collecting, cleaning and organizing their data [1], we explored how much effort should we invest in the preprocessing (transformation) of raw comments before feeding it to the state-of-the-art classification models. With the help of four models on Jigsaw toxic comment classification data, we demonstrated that the training of model without any transformation produce relatively decent model. Applying even basic transformations, in some cases, lead to worse performance and should be applied with caution.

研究の動機と目的

機械学習モデルのオンラインコメント分類性能に与えるテキスト前処理の影響を評価すること。
有毒コメント検出の文脈において、テキスト前処理に費やす時間と労力が正当化されるかどうかを特定すること。
生テキストから重度に変換された入力に至るまで、さまざまな前処理レベルにおけるモデル性能を比較すること。
最先端のモデルが広範なデータクリーニングなしで強力な結果を達成できるかどうかを評価すること。

提案手法

本研究は、Jigsaw有毒コメント分類データセット上で訓練された、4つのディープラーニングおよび従来の機械学習モデルを用いる。
前処理レベルは、変換なしの生テキストから、小文字化、特殊文字の削除、語彙素性化といった複数段階の処理までをカバーする。
AUC-ROCやF1スコアといった標準的な指標を用いて、さまざまな前処理設定におけるモデルの評価が行われる。
変数を制御した実験により、前処理がモデル性能に与える影響を隔離して評価する。
各前処理ステップの寄与度を評価するためのアブレーションスタディを含む。

実験結果

リサーチクエスチョン

RQ1オンラインコメントデータに対する広範なテキスト前処理を適用することで、分類モデルの性能が向上するか？
RQ2生テキストとさまざまなレベルの前処理を用いた場合、モデル性能はどのように変化するか？
RQ3前処理に費やす時間の投資が、分類精度の測定可能な向上によって正当化されるか？
RQ4最先端のモデルは、テキスト前処理を一切行わずに強力な性能を達成できるか？

主な発見

前処理なしの生テキストで訓練されたモデルは、競争力のある性能を示し、広範な前処理を施したモデルをしばしば上回った。
小文字化や句読点の削除といった基本的な前処理ステップが、場合によっては性能を低下させることがある。
語彙素性化や高度なクリーニング技術の使用は、一貫したモデル性能の向上をもたらさず、ときには性能を悪化させる場合があった。
本研究では、最小限の前処理で訓練されたモデルが最も効果的であることが判明した。これは、現代のモデルがノイズが多くて生のテキストを効果的に処理できることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。