[論文レビュー] Nationality Classification Using Name Embeddings
この論文では、5700万件の連絡先リストにおける同質性パターンから得られる名前埋め込みを用いて、最先端の性能を達成する国籍および民族分類器であるNamePrismを紹介する。通信ネットワーク構造を活用して堅牢な名前表現を学習することで、13クラスのベンチマークでF1スコア0.795を達成し、Ethnea(0.580)などの先行手法を顕著に上回った。
Nationality identification unlocks important demographic information, with many applications in biomedical and sociological research. Existing name-based nationality classifiers use name substrings as features and are trained on small, unrepresentative sets of labeled names, typically extracted from Wikipedia. As a result, these methods achieve limited performance and cannot support fine-grained classification. We exploit the phenomena of homophily in communication patterns to learn name embeddings, a new representation that encodes gender, ethnicity, and nationality which is readily applicable to building classifiers and other systems. Through our analysis of 57M contact lists from a major Internet company, we are able to design a fine-grained nationality classifier covering 39 groups representing over 90% of the world population. In an evaluation against other published systems over 13 common classes, our F1 score (0.795) is substantial better than our closest competitor Ethnea (0.580). To the best of our knowledge, this is the most accurate, fine-grained nationality classifier available. As a social media application, we apply our classifiers to the followers of major Twitter celebrities over six different domains. We demonstrate stark differences in the ethnicities of the followers of Trump and Obama, and in the sports and entertainments favored by different groups. Finally, we identify an anomalous political figure whose presumably inflated following appears largely incapable of reading the language he posts in.
研究の動機と目的
- 小規模で代表的でないデータセットで学習された既存の名前ベース国籍分類器の性能の低さと粗い粒度を是正する。
- サブストリング特徴に依存する問題と、ラテン文字以外のスクリプトへの一般化の難しさを、データ駆動型埋め込みアプローチを導入することで克服する。
- 世界人口の90%以上をカバーする39の国籍を網羅する、細分化された、公開可能な分類器を開発する。
- 名前のみを用いても、プライバシーに配慮した分野(例:生物医学的・社会学的研究)における正確なデモグラフィック推定を可能にする。
- ソーシャルメディア分析を通じて実用的価値を実証し、ハイプラベルなTwitterインフルエンサーのフォロワーの民族的構成に差が生じることを明らかにする。
提案手法
- 人々は似た者同士と関係を築くという同質性の原則を活用し、5700万件の匿名化された連絡先リストから名前埋め込みを導出する。
- 名前の共起パターンを基に、単語埋め込み(例:Skip-gram)を訓練することで、性別、民族、国籍をエンコードする表現を学習する。
- 118か国のラベルを用いて、米国国勢調査データと世界的な名前分布に基づいて、39の国籍の階層的分類体系を構築する。
- ベイズ推論を適用し、名前が知られている民族的属性を持つ一般的な姓にリンクすることで、珍しい名前の民族的分布を推定する。
- 名前埋め込みを特徴量としてナイーブベイズ分類器に用い、国籍および民族の予測を実行する。
- 米国ベースの推定と、電子メールおよびTwitterデータからの世界的な名前ラベルを統合することで、米国以外の名前に対してもモデルを拡張する。
実験結果
リサーチクエスチョン
- RQ1通信ネットワーク構造を活用することで、国籍および民族をエンコードするより堅牢な名前表現を学習できるか?
- RQ2大規模な連絡先リストから得た名前埋め込みは、サブストリングベースの手法と比較して、国籍および民族分類の精度を向上させられるか?
- RQ3細分化された、世界的に代表的な国籍分類体系は、多様な名前セットにおける分類性能をどの程度向上させるか?
- RQ4政治、エンタメなど異なる分野に属するハイプラベルなTwitterインフルエンサーのフォロワーの民族的構成に、どのような差が生じるか?
- RQ5ソーシャルメディアのフォロワーネットワークにおいて、言語とフォロワーのデモグラフィック属性に不一致がある場合、国籍分類はその異常を検出できるか?
主な発見
- NamePrismは13クラスの国籍分類ベンチマークでF1スコア0.795を達成し、Ethnea(0.580)、HMM(0.364)、EthnicSeer(0.571)を顕著に上回った。
- 名前埋め込みは、埋め込み空間に実世界の国境に一致する空間的マップを生成し、意味的な構造が明確に現れていることを示した。
- Twitterフォロワーの分析では、トランプ氏のフォロワーは白人である割合が著しく高く、オバマ氏やクリントン氏のフォロワーはマイノリティの割合が高いことが明らかになった。
- インドのインフルエンサー(例:ボリウッドスターや)のフォロワーはインド系である割合が圧倒的に高く、ヒスパニック系フォロワーはサッカーとボクシングを好む傾向が顕著だった。
- 異常事態として、インドネシアの政治家でGoogle検索結果がたった45,000件の人物が、50%のフォロワーにイギリス、ロシア、インド系の名前を持つことが判明したが、彼はインドネシア語での投稿のみをしていた。これは、ボットや不正な活動の兆候を示唆している。
- モデルは、米国国勢調査の民族的属性ラベルがわかっている姓にリンクすることで、珍しい名前の民族的分布を効果的に推定でき、一般的な名前を超えたカバレッジを向上させた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。