Skip to main content
QUICK REVIEW

[論文レビュー] The presence of occupational structure in online texts based on word embedding NLP models

Zoltán Kmetty, Júlia Koltai|arXiv (Cornell University)|May 18, 2020
Computational and Text Analysis Methods参考文献 41被引用数 5
ひとこと要約

本研究では、事前学習済み単語埋め込みを用いて大規模オンラインテキストから職業の評価と社会的階層を信頼性高く抽出できることを示しており、既存の社会学的順位付けと密接に一致する意味的構造を明らかにした。主な貢献は、従来の階級理論で軽視されてきた、組織的権力と知識を、多様なテキストコーパスにおける教師なしNLP手法を用いて、明確に測定可能な職業地位の次元として同定したことである。

ABSTRACT

Research on social stratification is closely linked to analysing the prestige associated with different occupations. This research focuses on the positions of occupations in the semantic space represented by large amounts of textual data. The results are compared to standard results in social stratification to see whether the classical results are reproduced and if additional insights can be gained into the social positions of occupations. The paper gives an affirmative answer to both questions. The results show fundamental similarity of the occupational structure obtained from text analysis to the structure described by prestige and social distance scales. While our research reinforces many theories and empirical findings of the traditional body of literature on social stratification and, in particular, occupational hierarchy, it pointed to the importance of a factor not discussed in the main line of stratification literature so far: the power and organizational aspect.

研究の動機と目的

  • 大規模テキストコーパスを用いたNLP手法によって職業の社会的構造を抽出できるかどうかを調査すること。
  • 単語埋め込みから導出された職業階層が、既存の評価尺度および社会的距離尺度と比較してどの程度類似しているかを検証すること。
  • テキストの意味的分析を用いて、従来軽視されてきた職業地位の次元(例:組織的権力)を同定すること。
  • 異なるテキストコーパス間で職業位置の頑健性と安定性を評価すること。

提案手法

  • Common CrawlおよびWikinewsコーパスで事前学習されたfastText単語埋め込みを用いた。
  • 埋め込み空間から1,000以上の職業の単語ベクトルを抽出した。
  • 職業の意味的配置の潜在的次元を特定するために主成分分析(PCA)を適用した。
  • Procrustes回転を用いて、2つの異なるテキストコーパス(Common CrawlおよびWikinews)間の要因構造を一致・比較した。
  • 既存の指標(ISEI(国際的職業社会経済インデックス)およびSIOPS(国際的職業評価尺度))と職業位置を相関させた。
  • 因子スコアの相関および類似行列の残差分析を用いて、異なるコーパス間での職業位置の安定性を測定した。

実験結果

リサーチクエスチョン

  • RQ1教師なしオンラインテキストコーパスの分析を用いた単語埋め込みによって、職業の評価と社会的階層を信頼性高く再構築できるか?
  • RQ2テキストから導出された職業構造は、SIOPS や ISEI といった古典的な社会学的順位付けとどの程度類似しているか?
  • RQ3大規模テキストコーパスにおける職業の意味的配置を規定する潜在的次元は何か? そして、それらは社会的分層理論モデルとどのように比較できるか?
  • RQ4職業位置は、異なるテキストコーパスおよび時間的経過を経てもどの程度安定しているか?
  • RQ5オンラインテキストの意味的分析から、評価や収入を超えた新たな職業地位の次元は何か?

主な発見

  • 単語埋め込みから導出された職業構造は、SIOPS や ISEI といった既存の評価尺度と強く類似しており、高い相関が認められた。
  • 職業の意味的空間には、知識、組織的権力、評価という3つの主要な潜在的次元が存在し、特に後二者は従来の評価指標とは明確に異なる。
  • 組織的権力—知識と構造的能力の組み合わせとして定義される—は、職業地位の重要な次元として顕在化し、かつ従来軽視されてきたものである。
  • 異なるテキストコーパス間で職業位置は安定しており、Common Crawl と Wikinews の因子スコア間の相関が高く(r > 0.9)一致した。
  • 語彙頻度を補正した後でも、職業位置の安定性は ISEI スコアと有意に相関していた(r = 0.19, p = 0.000)ことから、より評価の高い職業は意味的表現が一貫していることが示唆された。
  • 結果から、単語埋め込みは評価だけでなく、権限や組織的役割といった構造的・制度的側面も捉えていることが示された。これらは主観的または収入ベースの指標では十分に反映されていない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。