Skip to main content
QUICK REVIEW

[논문 리뷰] The presence of occupational structure in online texts based on word embedding NLP models

Zoltán Kmetty, Júlia Koltai|arXiv (Cornell University)|2020. 05. 18.
Computational and Text Analysis Methods참고 문헌 41인용 수 5
한 줄 요약

이 연구는 대규모 온라인 텍스트에서 사전 훈련된 단어 임베딩을 사용하여 직업의 명성과 사회적 계층질을 신뢰성 있게 추출할 수 있음을 보여주며, 기존 사회학적 순위와 밀도 있게 일치하는 의미론적 구조를 드러낸다. 주요 기여는 기존의 계층 이론에서 간과되었던 조직적 권력과 지식을 별개의 측정 가능한 직업 지위 차원으로 식별한 것으로, 다양한 텍스트 코퍼스에서 비지도 NLP 방법을 활용한 것이다.

ABSTRACT

Research on social stratification is closely linked to analysing the prestige associated with different occupations. This research focuses on the positions of occupations in the semantic space represented by large amounts of textual data. The results are compared to standard results in social stratification to see whether the classical results are reproduced and if additional insights can be gained into the social positions of occupations. The paper gives an affirmative answer to both questions. The results show fundamental similarity of the occupational structure obtained from text analysis to the structure described by prestige and social distance scales. While our research reinforces many theories and empirical findings of the traditional body of literature on social stratification and, in particular, occupational hierarchy, it pointed to the importance of a factor not discussed in the main line of stratification literature so far: the power and organizational aspect.

연구 동기 및 목표

  • 대규모 텍스트 데이터에서 NLP 방법을 사용하여 직업 사회 구조를 유추할 수 있는지 조사하기.
  • 단어 임베딩에서 파생된 직업 계층을 기존의 명성 척도 및 사회적 거리 척도와 비교하기.
  • 텍스트의 의미 분석을 통해 기존에 간과되었던 직업 지위의 차원, 예를 들어 조직적 권력과 같은 요소를 식별하기.
  • 다양한 텍스트 코퍼스 간에 직업 지위의 탄력성과 안정성 평가하기.

제안 방법

  • Common Crawl 및 Wikinews 코퍼스에서 훈련된 사전 훈련된 fastText 단어 임베딩를 사용하였다.
  • 임베딩 공간에서 1,000개 이상의 직업에 대한 단어 벡터를 추출하였다.
  • 직업 의미 위치의 잠재적 차원을 식별하기 위해 주성분 분석(PCA)을 적용하였다.
  • Procrustes 회전을 사용하여 두 개의 서로 다른 텍스트 코퍼스(Coherent Crawl 및 Wikinews) 간의 요인 구조를 정렬하고 비교하였다.
  • ISEI(국제 사회경제지수) 및 SIOPS(표준 국제 직업 명성 척도)와 같은 기존 척도와 직업 지위를 상관 분석하였다.
  • 요인 점수 간 상관계수 및 유사성 행렬의 잔차 분석을 통해 다양한 텍스트 코퍼스 간에 직업 지위의 안정성 측정하였다.

실험 결과

연구 질문

  • RQ1단어 임베딩를 사용하여 온라인 텍스트 코퍼스의 비지도 분석을 통해 직업의 명성과 사회적 계층질을 신뢰성 있게 재구성할 수 있는가?
  • RQ2텍스트에서 유도된 직업 구조는 SIOPS 및 ISEI와 같은 전통적인 사회학적 순위와 얼마나 유사한가?
  • RQ3대규모 텍스트 코퍼스에서 직업의 의미 위치를 뒷받침하는 잠재적 차원은 무엇이며, 이는 사회 계층화의 이론적 모델과 어떻게 비교되는가?
  • RQ4다양한 텍스트 코퍼스 및 시간에 따라 직업 지위는 어느 정도 안정적인가?
  • RQ5온라인 텍스트의 의미 분석을 통해 명성 또는 소득 외에 새로운 직업 지위의 차원은 무엇이 드러나는가?

주요 결과

  • 단어 임베딩에서 파생된 직업 구조는 SIOPS 및 ISEI와 같은 기존의 명성 척도와 높은 상관관계를 보이며 강력한 유사성을 보였다.
  • 직업의 의미 공간은 지식, 조직적 권력, 명성의 세 가지 주요 잠재적 차원을 드러내며, 후자의 두 가지 요소는 기존의 명성 측정과 구별된다.
  • 조직적 권력 — 지식과 구조적 능력의 조합으로 정의되는 — 는 기존에 간과되었던 직업 지위의 중요한 차원으로 부상하였다.
  • 다양한 텍스트 코퍼스 간에 직업 지위가 안정되어 있으며, Common Crawl와 Wikinews 간 요인 점수 간 상관계수가 매우 높았다(r > 0.9).
  • 단어 빈도를 보정한 후에도 직업 지위의 안정성은 ISEI 점수와 유의미하게 상관이 있었다(r = 0.19, p = 0.000), 이는 더 높은 명성을 지닌 직업일수록 의미 표현이 더 일관성을 띤다는 것을 시사한다.
  • 결과는 단어 임베딩가 명성 외에도 권위와 조직적 역할과 같은 구조적 및 제도적 요소를 포괄함을 보여주며, 이는 주관적 또는 소득 기반 척도가 충분히 반영하지 못하는 요소들임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.