QUICK REVIEW

[論文レビュー] Really? Well. Apparently Bootstrapping Improves the Performance of Sarcasm and Nastiness Classifiers for Online Dialogue

Stephanie M. Lukin, Marilyn Walker|arXiv (Cornell University)|Aug 29, 2017

Mobile Crowdsensing and Crowdsourcing参考文献 18被引用数 24

ひとこと要約

本稿では、オンライン対話における皮肉および攻撃的表現の分類を向上させるため、クラウドソーシングによる言語的手がかりと句構造パターンの一般化を組み合わせたブートストラップ手法を提案する。皮肉分類では62%の精度と52%の再現率を達成し、攻撃的表現分類では75%の精度と62%の再現率を達成しており、パターンベースのブートストラップが初期の手がかりベース分類器に比べて顕著に性能向上をもたらすことが示された。

ABSTRACT

More and more of the information on the web is dialogic, from Facebook newsfeeds, to forum conversations, to comment threads on news articles. In contrast to traditional, monologic Natural Language Processing resources such as news, highly social dialogue is frequent in social media, making it a challenging context for NLP. This paper tests a bootstrapping method, originally proposed in a monologic domain, to train classifiers to identify two different types of subjective language in dialogue: sarcasm and nastiness. We explore two methods of developing linguistic indicators to be used in a first level classifier aimed at maximizing precision at the expense of recall. The best performing classifier for the first phase achieves 54% precision and 38% recall for sarcastic utterances. We then use general syntactic patterns from previous work to create more general sarcasm indicators, improving precision to 62% and recall to 52%. To further test the generality of the method, we then apply it to bootstrapping a classifier for nastiness dialogic acts. Our first phase, using crowdsourced nasty indicators, achieves 58% precision and 49% recall, which increases to 75% precision and 62% recall when we bootstrap over the first level with generalized syntactic patterns.

研究の動機と目的

ソーシャルメディアのテキストにおいて頻出するが、困難な皮肉および攻撃的表現を、スケーラブルな手法で同定すること。
元々主題文の検出を目的として開発された単一文（モノローグ的）ブートストラップ手法を、より複雑な対話的・会話的文脈に適応すること。
初期の人が手作業でアノテートした手がかりから、文構造パターンの一般化が分類器の性能をどの程度向上させるかを評価すること。
皮肉と攻撃的表現という2つの異なるタイプの主観的言語行動に、本手法が一般化可能かどうかを検証すること。
LIWCなどの意味的カテゴリーが、文構造パターンを超えて性能向上をもたらすかどうかを検討すること。

提案手法

Mechanical Turkのアノテーターを用いて、インターネット・アーギュメント・コーパス（IAC）の質問・回答ペアから、皮肉および攻撃的表現のための言語的インジケーター（キーワード・フレーズ）をクラウドソーシングで収集する。
相互情報量などの統計的指標を用いて、人為的アノテーションによる手がかりをもとに、精度を最大化するが再現率を犠牲にする高精度・低再現率の分類器を訓練する。
最初の分類器の出力をもとに、皮肉的・攻撃的な発話から一般化された文構造パターンを抽出するパターン抽出器を適用する。
抽出された文構造パターンを用いて、より汎用性の高い分類器を訓練し、精度と再現率の両方を向上させる。
繰り返しブートストラップ処理を実施し、新たに分類されたデータをもとにパターン抽出器を再訓練するが、これは今後の課題として残されている。
開発用データセットのホールドアウトセットを用いて、精度、再現率、F-measureの指標で、手がかりベース分類器とパターンベース分類器の性能を比較する。

実験結果

リサーチクエスチョン

RQ1元来単一文テキストを想定して開発されたブートストラップ手法を、オンライン対話における皮肉および攻撃的表現の分類に効果的に適応できるか？
RQ2初期の言語的手がかりから文構造パターンを一般化することで、精度および再現率という観点から分類器の性能が顕著に向上するか？
RQ3本手法の性能指標は、特に精度と再現率において、先行研究の単一文皮肉検出手法と比較してどう異なるか？
RQ4本手法は、皮肉や攻撃的表現といった異なるタイプの主観的対話行動に一般化可能か？
RQ5LIWCなどの意味的カテゴリーが、文構造パターンを超えて性能向上をもたらすか？

主な発見

初期の手がかりベース分類器は、皮肉分類で54%の精度と38%の再現率を示し、精度は高いが再現率は限定的であった。
文構造パターンを用いたブートストラップ処理を経て、皮肉分類器の性能は62%の精度と52%の再現率に向上し、精度が17%、再現率が24%向上した。
攻撃的表現分類についても、初期分類器は58%の精度と49%の再現率を示したが、パターンベースのブートストラップ処理後は75%の精度と62%の再現率に向上し、精度が14%、再現率が13%向上した。
パターンベース分類器は手がかりベース分類器を上回る性能を示しており、文構造の一般化が主観的対話における広範な言語的パターンを効果的に捉えていることが示唆された。
本手法は、皮肉と攻撃的表現の両分類タスクで一貫した性能向上を示しており、異なるタイプの主観的言語に良好に一般化できることを裏付けた。
結果から、攻撃的表現は皮肉よりも検出が容易である可能性が示唆された。精度の向上幅が攻撃的表現でより大きかったことから、侮辱的表現は皮肉ほどニュアンスが複雑ではない可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。