QUICK REVIEW

[論文レビュー] Heavy-tailed Representations, Text Polarity Classification & Data Augmentation

Hamid Jalalzai, Paolo Colombo|arXiv (Cornell University)|Jan 1, 2020

Sentiment Analysis and Opinion Mining参考文献 56被引用数 8

ひとこと要約

本稿では、多変量極値理論（EVT）に適した重みつき尾分布にBERT埋め込みを変換するための敵対的手法である、学習された重尾表現（LHTR）を提案する。尾部におけるスケール不変性を活用することで、LHTRは極端なテキスト系列の分類を改善し、埋め込みのスケーリングによって意味的に意味のある感情に依存しないテキストを生成する、新たなラベル保持型データ拡張手法GENELIEXを提供する。本手法は感情分類の精度を向上させるとともに、制御された属性を持つ高品質な合成テキストを生成する。

ABSTRACT

The dominant approaches to text representation in natural language rely on learning embeddings on massive corpora which have convenient properties such as compositionality and distance preservation. In this paper, we develop a novel method to learn a heavy-tailed embedding with desirable regularity properties regarding the distributional tails, which allows to analyze the points far away from the distribution bulk using the framework of multivariate extreme value theory. In particular, a classifier dedicated to the tails of the proposed embedding is obtained which performance outperforms the baseline. This classifier exhibits a scale invariance property which we leverage by introducing a novel text generation method for label preserving dataset augmentation. Numerical experiments on synthetic and real text data demonstrate the relevance of the proposed framework and confirm that this method generates meaningful sentences with controllable attribute, e.g. positive or negative sentiment.

研究の動機と目的

極端な長さや希少なテキスト系列におけるテキスト分類の脆弱性を、その尾部挙動をモデル化することで解消すること。
多変量極値理論（EVT）に必要な正則変動仮定を満たす重尾分布に、標準的なBERT埋め込みを変換する手法を開発すること。
テキスト埋め込みの尾部領域におけるスケール不変分類を可能にし、希少または長い系列での性能を向上させること。
学習された重尾空間における埋め込みのスケーリングに基づき、意味的に意味のある、ラベル一貫性を保ったテキストを生成する新たなデータ拡張フレームワークGENELIEXを設計すること。
極端な系列（長く、分類が難しい）が、BERTおよびLHTR埋め込みにおいて、常に高いノルム値と系統的に関連していることを実証的に検証すること。

提案手法

LHTRは、多変量極値理論（EVT）に必要な正則変動条件を満たす重尾分布への変換を学習するための敵対的訓練手順を用いる。
本手法は、変換済み埋め込みZの尾部挙動がべき乗則に近づくように保証し、極値点のEVTベース分析を可能にする。
尾部領域{||x||∞ ≥ t}において、ベクトルの方向のみを用いて、特別な角分類器gを訓練する。これはスケール不変性を活用し、極端な入力の分類性能を向上させる。
GENELIEXは、極端な埋め込みにホモセイ（スケーリング）hλ(x) = λx（λ ≥ 1）を適用することで合成系列を生成する。分類器gのスケール不変性により、予測ラベルが保持される。
本フレームワークはYelpおよびAmazonの感情分類データセットで検証され、LHTR埋め込みは分類性能が向上し、GENELIEXは一貫性があり、感情を保ったテキストを生成する。
統計的検定（コルモゴロフ・スミルノフ検定）により、LHTRにおける極端な系列の平均長さがバッチ系列よりも顕著に長いことが確認され、長さと極値性の関連性が裏付けられた。

実験結果

リサーチクエスチョン

RQ1BERT埋め込みを、多変量極値理論に必要な正則変動条件を満たす重尾分布に変換できるか？
RQ2LHTRで変換された埋め込みの方向成分に基づく分類器は、通常の分類器に比べて極端なテキスト系列で優れた性能を示すか？
RQ3学習された重尾表現の尾部領域におけるスケール不変性を活用して、外部言語リソースを用いずに、新たなラベル一貫性を持つテキスト系列を生成できるか？
RQ4長さや希少なテキスト系列は、BERTおよびLHTR空間において、常に高いノルム埋め込みと系統的に関連しているか？
RQ5LHTR表現における系列長と極値性の間に測定可能な相関関係があるか？また、これはモデルの難易度と相関しているか？

主な発見

LHTRは、付録B.5の統計的検定により確認されたように、BERT埋め込みを重尾分布に成功して変換した。これは、EVTに必要な正則変動仮定を満たしている。
LHTR埋め込みに基づく分類器は、元のBERT埋め込みに基づくベースライン分類器よりも、極端な系列（||x||∞ ≥ t）で高い正答率を達成し、尾部入力に対するロバストネスの向上を示した。
GENELIEXは、λ ≥ 1で極端な埋め込みをスケーリングすることで、制御された感情極性を持つ合成系列を生成する。定性的な評価により、生成された文は意味的に意味があり、元の感情を保持していることが確認された。
LHTR表現における極端な系列は、非極端な系列よりも平均的に顕著に長く、YelpおよびAmazonデータセットの両方のポジティブおよびネガティブクラスにおいて、コルモゴロフ・スミルノフ検定により、長さ分布が等しいという帰無仮説が棄却された（p < 0.05）。
BERTノルムとLHTRノルムの間に強い正の相関関係が認められ、LHTR変換がノルムの大きさによるサンプルの相対的順序を保持していることが示された。
BERTにおける長系列は、LHTRで極端と分類される可能性が高く、かつ、BERT自身の分類ヘッドにおける信頼度スコアが低くなる傾向にあり、これらがモデルの難易度の増加を示していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。