QUICK REVIEW

[論文レビュー] Myers-Briggs Personality Classification and Personality-Specific Language Generation Using Pre-trained Language Models

Sedrick Scott Keh, I-Tsun Cheng|arXiv (Cornell University)|Jul 15, 2019

Mental Health via Writing参考文献 8被引用数 35

ひとこと要約

この論文は forum テキストから MBTI タイプを予測するために BERT をファインチューニングし、人格特異的な言語生成を検討し、PersonalityCafe データセットで最先端の MBTI 分類精度を報告し、タイプ別の生成損失を詳述する。

ABSTRACT

The Myers-Briggs Type Indicator (MBTI) is a popular personality metric that uses four dichotomies as indicators of personality traits. This paper examines the use of pre-trained language models to predict MBTI personality types based on scraped labeled texts. The proposed model reaches an accuracy of $0.47$ for correctly predicting all 4 types and $0.86$ for correctly predicting at least 2 types. Furthermore, we investigate the possible uses of a fine-tuned BERT model for personality-specific language generation. This is a task essential for both modern psychology and for intelligent empathetic systems.

研究の動機と目的

MBTI を人格指標として活用し、事前訓練済み言語モデルを用いてテキストから MBTI タイプを予測する。
与えられた MBTI タイプで条件づけされたテキスト生成の実現可能性を、共感的なシステムのために調査する。
BERT ベースの MBTI 分類を従来の方法と比較し、実用的な性能ベースラインを確立する。
MBTI 予測精度を最大化するためのデータスクレイピング、前処理、およびファインチューニングの具体的手法を探求する。

提案手法

[CLS]/[SEP] トークンを用いたシーケンス分類のための BERT (bert-base-uncased) のファインチューニングとクロスエントロピー損失。
テキストの前処理：小文字化、BERT トークナイザーによるトークン化、明示的な MBTI 言及の除去、プレースホルダへ置換。
学習率、最大シーケンス長、エポック数のハイパーパラメータ調整；最良結果は lr=1e-5、maxlen=128、30 エポックで報告。
MBTI の4文字予測の正確さおよび各文字カテゴリの正確さ（I/E、N/S、F/T、P/J）で評価。
人格別テキスト生成のための BERT ベースのマスクド言語モデルを 16 種類の MBTI タイプで学習させ、タイプ別損失を報告。

実験結果

リサーチクエスチョン

RQ1BERT ベースのモデルはユーザー生成テキストから MBTI タイプを正確に分類できるか？
RQ2特定の人格タイプで条件づけされた MBTI ベースのテキスト生成はどの程度機能するか？
RQ3ハイパーパラメータが MBTI 分類精度に与える影響は何か、どの MBTI カテゴリが識別しやすいか？
RQ4MBTI タイプごとに生成品質にどのような差が生じ、どの二分法が生成損失に最も影響を与えるか？

主な発見

方法	データセット	精度
Logistic Reg	Twitter (2.1 million tweets)	0.190
SVM	Reddit (22.9 million comments)	0.370
LSTM	Kaggle dataset (8675 sentences)	0.380
BERT	PersonalityCafe forums (68k posts)	0.479

Best MBTI classification accuracy achieved is 0.4797 (approx. 0.48) using lr=1e-5, maxlen=128, 30 epochs.
Classification accuracy of 0.4701 with lr=1e-4 and 128 max sequence length and 5 epochs; overall best around 0.48.
When evaluating by letter, E/I and F/T are easier to distinguish than P/J; P/J is comparatively harder.
Compared to prior work, BERT on PersonalityCafe data outperforms several baselines (e.g., logistic regression 0.190, SVM 0.370, LSTM 0.380).
Language generation losses per personality type are generally under 0.02 for several extroverted types, with ENFJ/ESFJ/ESFP/ESTJ showing the lowest losses.
Extroverted (E) types tend to yield lower generation losses than introverted types, suggesting more data availability for E types.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。