Skip to main content
QUICK REVIEW

[論文レビュー] Myers-Briggs Personality Classification and Personality-Specific Language Generation Using Pre-trained Language Models

Sedrick Scott Keh, I-Tsun Cheng|arXiv (Cornell University)|Jul 15, 2019
Mental Health via Writing参考文献 8被引用数 35
ひとこと要約

この論文は forum テキストから MBTI タイプを予測するために BERT をファインチューニングし、人格特異的な言語生成を検討し、PersonalityCafe データセットで最先端の MBTI 分類精度を報告し、タイプ別の生成損失を詳述する。

ABSTRACT

The Myers-Briggs Type Indicator (MBTI) is a popular personality metric that uses four dichotomies as indicators of personality traits. This paper examines the use of pre-trained language models to predict MBTI personality types based on scraped labeled texts. The proposed model reaches an accuracy of $0.47$ for correctly predicting all 4 types and $0.86$ for correctly predicting at least 2 types. Furthermore, we investigate the possible uses of a fine-tuned BERT model for personality-specific language generation. This is a task essential for both modern psychology and for intelligent empathetic systems.

研究の動機と目的

  • MBTI を人格指標として活用し、事前訓練済み言語モデルを用いてテキストから MBTI タイプを予測する。
  • 与えられた MBTI タイプで条件づけされたテキスト生成の実現可能性を、共感的なシステムのために調査する。
  • BERT ベースの MBTI 分類を従来の方法と比較し、実用的な性能ベースラインを確立する。
  • MBTI 予測精度を最大化するためのデータスクレイピング、前処理、およびファインチューニングの具体的手法を探求する。

提案手法

  • [CLS]/[SEP] トークンを用いたシーケンス分類のための BERT (bert-base-uncased) のファインチューニングとクロスエントロピー損失。
  • テキストの前処理:小文字化、BERT トークナイザーによるトークン化、明示的な MBTI 言及の除去、プレースホルダへ置換。
  • 学習率、最大シーケンス長、エポック数のハイパーパラメータ調整;最良結果は lr=1e-5、maxlen=128、30 エポックで報告。
  • MBTI の4文字予測の正確さおよび各文字カテゴリの正確さ(I/E、N/S、F/T、P/J)で評価。
  • 人格別テキスト生成のための BERT ベースのマスクド言語モデルを 16 種類の MBTI タイプで学習させ、タイプ別損失を報告。

実験結果

リサーチクエスチョン

  • RQ1BERT ベースのモデルはユーザー生成テキストから MBTI タイプを正確に分類できるか?
  • RQ2特定の人格タイプで条件づけされた MBTI ベースのテキスト生成はどの程度機能するか?
  • RQ3ハイパーパラメータが MBTI 分類精度に与える影響は何か、どの MBTI カテゴリが識別しやすいか?
  • RQ4MBTI タイプごとに生成品質にどのような差が生じ、どの二分法が生成損失に最も影響を与えるか?

主な発見

方法データセット精度
Logistic RegTwitter (2.1 million tweets)0.190
SVMReddit (22.9 million comments)0.370
LSTMKaggle dataset (8675 sentences)0.380
BERTPersonalityCafe forums (68k posts)0.479
  • Best MBTI classification accuracy achieved is 0.4797 (approx. 0.48) using lr=1e-5, maxlen=128, 30 epochs.
  • Classification accuracy of 0.4701 with lr=1e-4 and 128 max sequence length and 5 epochs; overall best around 0.48.
  • When evaluating by letter, E/I and F/T are easier to distinguish than P/J; P/J is comparatively harder.
  • Compared to prior work, BERT on PersonalityCafe data outperforms several baselines (e.g., logistic regression 0.190, SVM 0.370, LSTM 0.380).
  • Language generation losses per personality type are generally under 0.02 for several extroverted types, with ENFJ/ESFJ/ESFP/ESTJ showing the lowest losses.
  • Extroverted (E) types tend to yield lower generation losses than introverted types, suggesting more data availability for E types.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。