[论文解读] The presence of occupational structure in online texts based on word embedding NLP models
本研究证明,通过使用预训练词嵌入从大规模在线文本中可靠地提取职业声望和社会等级制度是可行的,揭示出一种与既定社会学排名高度吻合的语义结构。其主要贡献在于,利用无监督NLP方法对多样化文本语料进行分析,识别出组织权力和知识作为职业地位的独立、可度量的维度——这些维度在传统分层理论中此前未被充分重视。
Research on social stratification is closely linked to analysing the prestige associated with different occupations. This research focuses on the positions of occupations in the semantic space represented by large amounts of textual data. The results are compared to standard results in social stratification to see whether the classical results are reproduced and if additional insights can be gained into the social positions of occupations. The paper gives an affirmative answer to both questions. The results show fundamental similarity of the occupational structure obtained from text analysis to the structure described by prestige and social distance scales. While our research reinforces many theories and empirical findings of the traditional body of literature on social stratification and, in particular, occupational hierarchy, it pointed to the importance of a factor not discussed in the main line of stratification literature so far: the power and organizational aspect.
研究动机与目标
- 探究是否可使用NLP方法从大规模文本数据中推导出职业社会结构。
- 将基于词嵌入推导出的职业等级制度与既有的声望和社交距离量表进行比较。
- 通过文本的语义分析,识别出此前被低估的职业地位维度,如组织权力。
- 评估不同文本语料中职业地位的稳健性与稳定性。
提出的方法
- 使用在Common Crawl和Wikinews语料上训练的预训练fastText词嵌入。
- 从嵌入空间中提取1,000多个职业的词向量。
- 应用主成分分析(PCA)以识别职业语义定位的潜在维度。
- 使用Procrustes旋转法,在两个不同文本语料(Common Crawl和Wikinews)之间对因子结构进行对齐与比较。
- 将职业地位与既有的指标(ISEI(国际社会经济指数)和SIOPS(标准国际职业声望量表))进行相关性分析。
- 通过因子得分之间的相关性及相似性矩阵的残差分析,衡量不同语料中职业地位的稳定性。
实验结果
研究问题
- RQ1是否可以使用词嵌入对在线文本语料进行无监督分析,可靠地重建职业声望和社会等级制度?
- RQ2从文本中推导出的职业结构与SIOPS和ISEI等经典社会学排名有多相似?
- RQ3大规模文本语料中职业语义定位的潜在维度是什么?它们与社会分层的理论模型相比如何?
- RQ4职业地位在不同文本语料中以及随时间推移的稳定性如何?
- RQ5从在线文本的语义分析中,会涌现出哪些超越声望或收入的新职业地位维度?
主要发现
- 从词嵌入中推导出的职业结构与既有的声望和社交距离量表(如SIOPS和ISEI)具有高度相似性(高相关性)。
- 职业的语义空间揭示出三个主要潜在维度:知识、组织权力和声望,其中后两者与传统声望测量方式明显不同。
- 组织权力——定义为知识与结构能力的结合——作为职业地位的一个显著且此前被低估的维度浮现出来。
- 职业地位在不同文本语料中保持稳定,Common Crawl与Wikinews的因子得分之间具有高度互相关性(r > 0.9)。
- 即使控制了词频后,职业地位的稳定性仍与ISEI得分显著相关(r = 0.19,p = 0.000),表明声望更高的职业具有更一致的语义表征。
- 结果表明,词嵌入不仅捕捉了声望,还捕捉了职业的结构性和制度性方面,如权威和组织角色,这些方面无法被主观或基于收入的指标完全反映。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。