QUICK REVIEW

[論文レビュー] Sentiment Analysis of Code-Mixed Indian Languages: An Overview of SAIL_Code-Mixed Shared Task @ICON-2017

Braja Gopal Patra, Dipankar Das|arXiv (Cornell University)|Mar 18, 2018

Natural Language Processing Techniques参考文献 10被引用数 87

ひとこと要約

本論文は ICON-2017 における SAIL_Code-Mixed 共有タスクを提示し、Hindi-English および Bengali-English のコード混合感情分析のデータセット、評価、ベースライン、および参加システムを詳述します。マクロ F-スコアを複数のチームにわたって報告し、特徴選択とアプローチを分析します。

ABSTRACT

Sentiment analysis is essential in many real-world applications such as stance detection, review analysis, recommendation system, and so on. Sentiment analysis becomes more difficult when the data is noisy and collected from social media. India is a multilingual country; people use more than one languages to communicate within themselves. The switching in between the languages is called code-switching or code-mixing, depending upon the type of mixing. This paper presents overview of the shared task on sentiment analysis of code-mixed data pairs of Hindi-English and Bengali-English collected from the different social media platform. The paper describes the task, dataset, evaluation, baseline and participant's systems.

研究の動機と目的

コード混合のインド系ソーシャルメディア文（HI-EN および BN-EN）における感情分析の動機付け。
HI-EN および BN-EN の言語・感情注釈付きゴールド標準データセットを提供。
マクロ平均 F-score とベースライン比較を用いて複数の参加システムを評価。
トップパフォーマンスのチームが用いた特徴とモデリングアプローチを分析。

提案手法

言語タグ付け（HI, EN, BN, MIX, EMT, UN）と感情注釈付きデータセットを作成。
主な評価指標としてマクロ平均 F-score を採用。
ランダムな感情割り当てによるベースラインを設定。
参加システムを特徴集合（n-gram、単語/文字埋め込み、感情語彙）と分類器（SVM、Naïve Bayes、深層学習）で比較。
ポジティブ/ネガティブの二値評価と全体の多クラス評価（ポジティブ、ネガティブ、ニュートラル）を実施。

実験結果

リサーチクエスチョン

RQ1HI-EN および BN-EN コード混合データにおける感情分析の有効な特徴は何か。
RQ2語彙/文字 n-gram と埋め込みはコード混合感情タスクの性能を向上させるか。
RQ3限定的なコード混合データに対して従来の機械学習手法は深層学習と比較してどうか。
RQ4本共有タスクにおける HI-EN と BN-EN の相対的難易度はどの程度か。
RQ5このようなコード混合データセットで期待できるベースライン性能はどの程度で、参加システムはそれにどの程度近づいているか。

主な発見

トップ HI-EN システム（IIIT-NBP）はマクロ F1 全体で 0.569、二値分類のポジティブで 0.707 を達成。
トップ BN-EN システム（IIIT-NBP）はマクロ F1 全体で 0.526、二値分類のポジティブで 0.677 を達成。
二値評価は一般に多クラス評価（ポジティブ/ネガティブ/ニュートラル）より高い F-scores を示した。
ほとんどのチームは n-gram 特徴と scikit-learn の分類器を用い、いくつかは語彙/文字埋め込みとアンサンブル手法を使用。
深層学習アプローチ（例：fastText + CNN/Bi-LSTM）はデータセットサイズを考えると従来の ML 手法を上回らなかった。
ベースラインのランダム感情は相対的に低いスコアであり、コード混合のソーシャルメディア文の難しさを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。