QUICK REVIEW

[논문 리뷰] Myers-Briggs Personality Classification and Personality-Specific Language Generation Using Pre-trained Language Models

Sedrick Scott Keh, I-Tsun Cheng|arXiv (Cornell University)|2019. 07. 15.

Mental Health via Writing참고 문헌 8인용 수 35

한 줄 요약

본 논문은 forum 텍스트에서 MBTI 유형을 예측하기 위해 BERT를 미세조정하고 성격별 언어 생성을 탐구하며, PersonalityCafe 데이터셋에서 MBTI 분류 정확도 최첨단을 보고하고 유형별 생성 손실을 상세히 제시한다.

ABSTRACT

The Myers-Briggs Type Indicator (MBTI) is a popular personality metric that uses four dichotomies as indicators of personality traits. This paper examines the use of pre-trained language models to predict MBTI personality types based on scraped labeled texts. The proposed model reaches an accuracy of $0.47$ for correctly predicting all 4 types and $0.86$ for correctly predicting at least 2 types. Furthermore, we investigate the possible uses of a fine-tuned BERT model for personality-specific language generation. This is a task essential for both modern psychology and for intelligent empathetic systems.

연구 동기 및 목표

MBTI를 성격 지표로 활용하고 사전 학습된 언어 모델로 텍스트에서 MBTI 유형을 예측하는 것을 동기화한다.
공감형 시스템을 위해 주어진 MBTI 유형에 조건화된 텍스트 생성을 가능성 있게 조사한다.
기존 방법과 비교하여 BERT 기반 MBTI 분류를 평가하고 실용적인 성능 기준선을 확립한다.
MBTI 예측 정확도를 극대화하기 위한 데이터 스크레이핑, 전처리 및 미세조정의 구체사항을 탐구한다.

제안 방법

시퀀스 분류를 위해 [CLS]/[SEP] 토큰과 크로스엔트로피 손실로 BERT (bert-base-uncased)를 미세조정한다.
텍스트 전처리: 소문자화, BERT 토크나이저를 통한 토큰화, 명시적인 MBTI 언급 제거 후 자리표시자로 대체.
학습률, 최대 시퀀스 길이, 에폭의 하이퍼파라미터 튜닝; lr=1e-5, maxlen=128, 30 epochs에서 최적 결과 보고.
정확한 4-letter MBTI 예측 및 각 글자 범주 정확도(I/E, N/S, F/T, P/J)로 평가.
16개 MBTI 유형에 걸친 성격별 텍스트 생성을 위한 별도 BERT 기반 마스킹 언어 모델을 훈련하고 유형별 손실을 보고.

실험 결과

연구 질문

RQ1BERT-based 모델이 사용자 생성 텍스트에서 MBTI 유형을 정확하게 분류할 수 있는가?
RQ2특정 성격 유형으로 조건화된 텍스트 생성은 MBTI 기반에서 어떤 성능을 보이는가?
RQ3하이퍼파라미터가 MBTI 분류 정확도에 미치는 영향은 무엇이며 어떤 MBTI 범주를 구분하기 쉽나요?
RQ4MBTI 유형에 따라 생성 품질에 어떤 차이가 나타나며 어떤 이분법이 생성 손실에 가장 영향을 미치는가?

주요 결과

방법	데이터셋	정확도
Logistic Reg	Twitter (2.1 million tweets)	0.190
SVM	Reddit (22.9 million comments)	0.370
LSTM	Kaggle dataset (8675 sentences)	0.380
BERT	PersonalityCafe forums (68k posts)	0.479

Best MBTI classification accuracy achieved is 0.4797 (approx. 0.48) using lr=1e-5, maxlen=128, 30 epochs.
Classification accuracy of 0.4701 with lr=1e-4 and 128 max sequence length and 5 epochs; overall best around 0.48.
When evaluating by letter, E/I and F/T are easier to distinguish than P/J; P/J is comparatively harder.
Compared to prior work, BERT on PersonalityCafe data outperforms several baselines (e.g., logistic regression 0.190, SVM 0.370, LSTM 0.380).
Language generation losses per personality type are generally under 0.02 for several extroverted types, with ENFJ/ESFJ/ESFP/ESTJ showing the lowest losses.
Extroverted (E) types tend to yield lower generation losses than introverted types, suggesting more data availability for E types.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.