QUICK REVIEW

[論文レビュー] Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT

Mostafa M. Amin, Erik Cambria|arXiv (Cornell University)|Mar 3, 2023

Mental Health via Writing被引用数 36

ひとこと要約

この論文は、ChatGPT の三つの感情計算テキスト分類タスク（ビッグファイブ性格予測、感情分析、自殺傾向検出）を実行する能力を評価し、三つの専門ベースライン（RoBERTa、Word2Vec、BoW）と比較して、ChatGPT は汎用的な専門家として有能だが、タスク特異的モデルに一般的に及ばず、特に RoBERTa に劣ることが多い、という結論を得ている。

ABSTRACT

ChatGPT has shown the potential of emerging general artificial intelligence capabilities, as it has demonstrated competent performance across many natural language processing tasks. In this work, we evaluate the capabilities of ChatGPT to perform text classification on three affective computing problems, namely, big-five personality prediction, sentiment analysis, and suicide tendency detection. We utilise three baselines, a robust language model (RoBERTa-base), a legacy word model with pretrained embeddings (Word2Vec), and a simple bag-of-words baseline (BoW). Results show that the RoBERTa trained for a specific downstream task generally has a superior performance. On the other hand, ChatGPT provides decent results, and is relatively comparable to the Word2Vec and BoW baselines. ChatGPT further shows robustness against noisy data, where Word2Vec models achieve worse results due to noise. Results indicate that ChatGPT is a good generalist model that is capable of achieving good results across various problems without any specialised training, however, it is not as good as a specialised model for a downstream task.

研究の動機と目的

foundation models like ChatGPT が、タスク固有の訓練なしで、感情計算の分類タスクを完全に解決する「完全な出現」を遂げうるか評価する。
感情計算の下流NLPタスクに対して ChatGPT を評価するための枠組みを提供する。
一般istとタスク特異的性能を定量化するため、専門ベースラインと比較する。

提案手法

タスクに対応する三つのデータセットを使用する：ビッグファイブ性格予測、感情分析、自殺傾向検出。
RoBERTa-base、SVM付きWord2Vec、SVM付きBoWの三つのベースラインと比較。
各テスト事例に対してChatGPTへ問い合わせる明示的なプロンプトを作成し、正規表現で応答を解析。
正確性とUnweighted Average Recall (UAR)を用いた標準化評価と、有意性のための置換検定。
開発セット上でSMACベイズ最適化を用いてベースラインのハイパーパラメータを調整。
タスクごとの精度とUARの観点で結果を報告。

実験結果

リサーチクエスチョン

RQ1ChatGPT がタスク固有のファインチューニングなしで、下流の感情計算タスクの完全な出現を示すか。
RQ2性格、感情、自殺検出において、堅牢なベースライン変換器 RoBERTa およびより単純なベースライン Word2Vec / BoW と比較して、ChatGPT の性能はどうか。
RQ3感情計算タスクにおいて、ノイズのあるデータに対してChatGPT は Word2Vec ベースラインより堅牢か。
RQ4研究環境でのNLPタスクの系統的評価にChatGPTを用いる際の制約は何か。

主な発見

Task	ChatGPT_Accuracy	RoBERTa_Accuracy	Word2Vec_Accuracy	BoW_Accuracy	ChatGPT_UAR	RoBERTa_UAR	Word2Vec_UAR	BoW_UAR
O	46.6	66.0***	65.2***	59.7***	50.1	50.9	50.7	55.6
C	57.4	63.7*	62.7	55.6	57.7	60.8	60.0	56.3
E	55.2	66.0***	59.9	55.2	54.0	62.3***	55.5	53.7
A	44.8	67.4***	67.2***	58.5***	48.4	51.9	51.0	55.7*
N	47.2	62.1***	56.8***	56.0***	49.1	61.2***	54.6	55.8*
Sen	85.5	85.0	79.4*	82.5	85.5	85.0	79.4**	82.4
Sui	92.7	97.4***	92.1	92.7	91.2	97.4***	91.2	90.9

ChatGPT は特定の下流タスクのファインチューニング時には RoBERTa に一般的には及ばない。
3タスクの中で感情分析で最も良い性能を示し、単純なベースラインと競合するが、多くの場合 RoBERTa や Word2Vec には及ばない。
RoBERTa は特に性格予測と自殺検出タスクで最高精度を示すことが多い。
ChatGPT はノイズに対する頑健性を示す一方、Word2Vec はノイズの多いTwitter由来の感情データでより苦戦。
統計検定（置換検定）では、タスクを横断して多くの ChatGPT の差異が BoW と比較して有意ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。