Skip to main content
QUICK REVIEW

[論文レビュー] Personality Trait Detection Using Bagged SVM over BERT Word Embedding Ensembles

Amirmohammad Kazameini, Samin Fatehi|arXiv (Cornell University)|Oct 3, 2020
Sentiment Analysis and Opinion Mining参考文献 16被引用数 52
ひとこと要約

本論文はBB-SVMを提案する。BERTベースの文脈埋め込みとMairesse特徴量およびBagging-SVMを組み合わせて、エッセイからビッグファイブ性格特性を予測する計算効率の高いアプローチで、以前の最先端を1.04%上回る。

ABSTRACT

Recently, the automatic prediction of personality traits has received increasing attention and has emerged as a hot topic within the field of affective computing. In this work, we present a novel deep learning-based approach for automated personality detection from text. We leverage state of the art advances in natural language understanding, namely the BERT language model to extract contextualized word embeddings from textual data for automated author personality detection. Our primary goal is to develop a computationally efficient, high-performance personality prediction model which can be easily used by a large number of people without access to huge computation resources. Our extensive experiments with this ideology in mind, led us to develop a novel model which feeds contextualized embeddings along with psycholinguistic features toa Bagged-SVM classifier for personality trait prediction. Our model outperforms the previous state of the art by 1.04% and, at the same time is significantly more computationally efficient to train. We report our results on the famous gold standard Essays dataset for personality detection.

研究の動機と目的

  • テキストから自動的に性格検出の計算効率の高いモデルを開発する。
  • BERTの文脈埋め込みと心理言語学的特徴を組み合わせて活用する。
  • Essays性格データセットで予測性能を向上させつつ、トレーニング時間を短縮する。

提案手法

  • エッセイをBERT入力制限に合わせて200トークンのサブドキュメントに分割する。
  • BERT層全体のトークン表現を平均化し、最後の4層を結合して文脈化埋め込みを抽出する。
  • BERT特徴と84個のMairesse特徴を結合して3156次元の文書特徴ベクトルを形成する。
  • 十個のSVM分類器を並列に学習させ(Bagging)、最終予測に多数決を使用する。
  • Bagging-SVMを単一モデルや異なる特徴設定と比較する。

実験結果

リサーチクエスチョン

  • RQ1BERTベースの文脈埋め込みと心理言語学的特徴は、テキストからの性格特性予測を従来手法より改善できるか?
  • RQ2Baggingによる複数SVM分類器は、このタスクにおいて性能とトレーニング時間の利点を提供するか?
  • RQ3最後の4層BERT表現を他の構成と比較した場合、精度へどのような影響があるか?
  • RQ4BB-SVMはEssaysデータセットにおける先行技術と比較してどうか?

主な発見

モデルID語彙埋め込み文特徴抽出文書特徴抽出分類器平均精度
M8W2V-MeanBagging-SVM57.38
BB-SVMBERT (4 last layers)-MeanBagging-SVM59.03
  • BB-SVMは以前の最先端(57.99%)より高い平均精度(59.03%)を達成した。
  • BERT(最後の4層)とBagging-SVMを用いると、研究設定下のWord2Vecベースのアプローチより優れている。
  • Baggingは単一のSVMと比較して性格検出の分類精度を向上させる。
  • トレーニング時間は大幅に短縮され、約7分程度で済むのに対し、従来法は約50時間。
  • 最後の4層のBERTとMairesse特徴を結合することは、SVM分類器に対して強力な特徴ベクトルを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。