QUICK REVIEW
[論文レビュー] MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection
Mikhail Kotyushev, Anna Glazkova|arXiv (Cornell University)|Apr 10, 2021
Hate Speech and Cyberbullying Detection参考文献 40被引用数 3
ひとこと要約
本論文では、ソーシャルメディアのテキストにおけるトキシックスパン検出のため、2段階にわたる微調整を施したBERTベースのアンサンブル手法を提示する。この手法は、Jigsawデータ上でドメイン特化型事前学習を実施し、その後トークンレベル分類を実行するもので、アンサンブル戦略によりSemEval-2021テストセットでF1スコア67.55%を達成し、平均スコアからほぼ10%高い性能を発揮した。
ABSTRACT
This paper describes our system for SemEval-2021 Task 5 on Toxic Spans Detection. We developed ensemble models using BERT-based neural architectures and post-processing to combine tokens into spans. We evaluated several pre-trained language models using various ensemble techniques for toxic span identification and achieved sizable improvements over our baseline fine-tuned BERT models. Finally, our system obtained a F1-score of 67.55% on test data.
研究の動機と目的
- ソーシャルメディアのコメントにおける特定のトキシックスパンを同定する課題に取り組む。これは、全テキストのトキシシティ検出よりも細分化されたタスクである。
- 事前学習言語モデルを用いたトランスファーラーニングにより、リソースが限られたスパンレベルのトキシック言語検出の性能を向上させる。
- より良い汎化性と耐性を実現するため、マルチステージ微調整およびアンサンブル学習の有効性を検証する。
- 共有タスクにおけるデータスパarsityとアノテーションの曖昧さに対処するため、ドメイン適応型事前学習とポストプロセッシング戦略を用いる。
提案手法
- Jigsawデータセットの大規模なデータから、毒性スコアが0.5以上であるサンプルをポジティブ例とし、ネガティブ例を3:1の比率で用いて、BERT-base-uncasedを微調整してドメイン適合性を向上させる。
- SemEval-2021の訓練および検証データを用いて、2回目の微調整ステップを実施し、トークンレベルのバイナリ分類としてトキシックスパンを検出する。
- 複数のアンサンブル戦略を適用する:ハードボーティング(スパンインターセクションおよびユニオン)、重み付き確率を用いたソフトボーティング、検証データ上でメタクラシファイアを訓練する。
- モデルのトレーニングおよび推論にはHugging Face Transformersライブラリを用い、トークンレベル分類ヘッドが各トークンの毒性を予測する。
- ポストプロセッシングとして、トークンオフセットに基づくルールベースのマージを用いて、連続する予測トキシックトークンをスパンにグループ化する。
- 最良のモデルとボーティング戦略の組み合わせを選択するため、1つのホールドアウト検証セットを最適化に用いる。
実験結果
リサーチクエスチョン
- RQ1まず大規模な一般トキシックコメントデータセットで微調整し、その後ターゲットのスパンレベルタスクで微調整する2段階微調整は、トキシックスパン検出の性能向上に寄与するか?
- RQ2ハードボーティング、ソフトボーティング、メタクラシファイアのうち、どのアンサンブル戦略がスパンレベルの毒性検出で最高のF1スコアを達成するか?
- RQ3Jigsawデータ上でドメイン適応型事前学習を実施することで、モデルの微細なまたは文脈依存のトキシックスパンの検出能力は向上するか?
- RQ4データセット内のアノテーションの曖昧さや皮肉表現の影響が、モデルの汎化性および性能に及ぼす影響はどの程度か?
- RQ5アンサンブル手法は、トキシックスパンがアノテートされていない非トキシック投稿において過剰に予測を行うのを緩和できるか?
主な発見
- 2段階微調整アプローチにより、ベースラインBERTモデルに比べて性能が顕著に向上し、テストセットで最高でF1スコア67.55%を達成した。
- 2回目のトレーニングステージにおいて、訓練およびトライアルセットを統合した状態で5つの交差検証フォールドを実行した結果、平均F1スコアは0.6714を記録した。
- スパンインターセクションアンサンブル戦略が最良の性能を示し、ユニオンを用いたハードボーティングおよびソフトボーティングの両方を上回った。
- 参加チームの91チーム平均F1スコア57.81%を約10ポイント上回り、91チーム中27位の順位を達成した。
- トキシックスパンがアノテートされていない投稿では、しばしば皮肉的または文脈的に有毒だがアノテートされていない表現に対して誤検出が生じた。
- いくつかのテスト例から、アノテーションの信頼性に問題がある可能性が示された。例えば、一貫性のない、または広すぎるスパンラベル付けが、性能制限要因となっている可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。