[論文レビュー] Is ChatGPT a Good Personality Recognizer? A Preliminary Study
本論文は、さまざまな prompting 戦略を用いてテキストからビッグファイブ性格特性を認識するChatGPTの能力を評価し、ベースラインおよびSOTAモデルと比較し、公平性を分析し、下流タスクへの影響を検討する。
In recent years, personality has been regarded as a valuable personal factor being incorporated into numerous tasks such as sentiment analysis and product recommendation. This has led to widespread attention to text-based personality recognition task, which aims to identify an individual's personality based on given text. Considering that ChatGPT has recently exhibited remarkable abilities on various natural language processing tasks, we provide a preliminary evaluation of ChatGPT on text-based personality recognition task for generating effective personality data. Concretely, we employ a variety of prompting strategies to explore ChatGPT's ability in recognizing personality from given text, especially the level-oriented prompting strategy we designed for guiding ChatGPT in analyzing given text at a specified level. The experimental results on two representative real-world datasets reveal that ChatGPT with zero-shot chain-of-thought prompting exhibits impressive personality recognition ability and is capable to provide natural language explanations through text-based logical reasoning. Furthermore, by employing the level-oriented prompting strategy to optimize zero-shot chain-of-thought prompting, the performance gap between ChatGPT and corresponding state-of-the-art model has been narrowed even more. However, we observe that ChatGPT shows unfairness towards certain sensitive demographic attributes such as gender and age. Additionally, we discover that eliciting the personality recognition ability of ChatGPT helps improve its performance on personality-related downstream tasks such as sentiment classification and stress prediction.
研究の動機と目的
- NLPタスクにとって価値ある下流信号として、テキストベースの性格認識を促進する。
- さまざまな prompting戦略の下で、ユーザー生成テキストからビッグファイブ特性を推定するChatGPTの能力を評価する。
- 2つのデータセットで、ChatGPTをRNN、RoBERTa、およびSOTAモデルと比較する。
- 自然言語の説明を通じて、ChatGPT出力の解釈可能性を探る。
- 性別や年齢層に跨る公平性バイアスと、下流タスクへの潜在的な利益を調査する。
提案手法
- テキストから性格レベル(O、C、E、A、N)を抽出するために、ゼロショット、ゼロショットCoT、およびワンショット promptingを使用する。
- テキストを語彙レベル/文レベル/文書レベルで分析するための、レベル指向のゼロショットCoT promptingを設計する。
- EssaysおよびPANデータセット上で、ベースライン(RNN、RoBERTa)およびSOTA(HPMN BERT)と比較して評価する。
- SOTAに対する正確度とAIP(Accuracy Improvement Percentage)を測定する。
- CoTプロンプトに対する自然言語での説明を伴うChatGPT出力を提供する。
- 性別および年齢プロンプトを組み込んで公平性を分析し、予測された性格特性レベルの分布を可視化する。
実験結果
リサーチクエスチョン
- RQ1RQ1: さまざまな prompting 戦略は、テキストからの性格識別能力にどのような影響を与えるか?
- RQ2RQ2: 敏感な属性に対して性格認識器として機能するChatGPTにはどの程度の不公平さがあるか?
- RQ3RQ3: 推定された性格は、感情分類やストレス予測などの下流タスクの性能を改善するか?
主な発見
| モデル | O | C | E | A | N | 平均 |
|---|---|---|---|---|---|---|
| RNN | 57.3% | 52.8% | 45.2% | 45.2% | 50.8% | 50.3% |
| RoBERTa | 64.9% | 52.8% | 51.2% | 58.1% | 59.7% | 57.3% |
| SOTA (HPMN BERT) | 81.8% | 79.6% | 81.1% | 80.7% | 81.7% | 80.9% |
| ChatGPT ZS | 60.9% | 56.0% | 50.8% | 58.9% | 60.5% | 57.4% |
| ChatGPT CoT | 65.7% | 53.2% | 49.2% | 60.9% | 60.1% | 57.8% |
| ChatGPT OS | 58.4% | 54.5% | 59.0% | 58.8% | 60.5% | 58.2% |
| ChatGPT CoT_W | 59.3% | 56.5% | 50.4% | 58.9% | 61.3% | 57.3% |
| ChatGPT CoT_S | 62.1% | 55.2% | 51.6% | 59.3% | 58.9% | 57.4% |
| ChatGPT CoT_D | 64.1% | 56.5% | 51.2% | 59.7% | 60.1% | 58.3% |
- Zero-shot prompting with CoT yields the best average performance among prompting strategies, though still below SOTA.
- Zero-shot CoT prompting enables natural language explanations and improved interpretability of predictions.
- Level-oriented CoT prompting (word/sentence/document level) can further enhance accuracy for targeted text analysis.
- ChatGPT shows demographic unfairness, with women predicted more often as high on certain traits and older individuals more often as low on Openness.
- Elicited personality traits can improve performance on downstream tasks like sentiment classification and stress prediction.
- On PAN, ChatGPT CoT_S (sentence level) and CoT_D (document level) offer notable gains in certain traits.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。