[論文レビュー] Predicting Race and Ethnicity From the Sequence of Characters in a Name
本論文は、姓とフルネームデータを用いて名前から人種・民族を予測する複数のモデル(KNN、RF、GB、LSTM、Transformer)を比較し、LSTMが最も高い性能を示す傾向がある一方、姓とフルネームの性能には顕著な差がある。
To answer questions about racial inequality and fairness, we often need a way to infer race and ethnicity from names. One way to infer race and ethnicity from names is by relying on the Census Bureau's list of popular last names. The list, however, suffers from at least three limitations: 1. it only contains last names, 2. it only includes popular last names, and 3. it is updated once every 10 years. To provide better generalization, and higher accuracy when first names are available, we model the relationship between characters in a name and race and ethnicity using various techniques. A model using Long Short-Term Memory works best with out-of-sample accuracy of .85. The best-performing last-name model achieves out-of-sample accuracy of .81. To illustrate the utility of the models, we apply them to campaign finance data to estimate the share of donations made by people of various racial groups, and to news data to estimate the coverage of various races and ethnicities in the news.
研究の動機と目的
- 不平等と公正性を研究するために、名前から人種・民族を推定する必要性を動機づける。
- Census(国勢調査)ベースの姓リストの限界を批評する(姓に限定される点、人気バイアス、十年ごとに更新される点)。
- 名前の文字列を用いて五つの民族人種カテゴリを予測するモデルを開発・比較する。
- 保持データや Census ベースのデータセットでの一般化を評価する。
- 政治分野やメディアの多様性における実用的な応用を示す。
提案手法
- 名前を大文字表記(タイトルケース)に整え、非アルファベット文字を削除し、姓+名またはフルネームを結合する。
- 編集距離を用いたKNN、ランダムフォレスト、勾配ブースト木、LSTM、Transformer の複数の分類器を検討する。
- 姓またはフルネームでデータをグルーピングし、各グループのモーダルな民族人種カテゴリを算出する。
- データを訓練/検証/テストセットに0.8/0.1/0.1の比率で分割する。
- データセット(フロリダ州有権者データと Census データ)を横断して、カテゴリ別および全体のサンプル外精度を評価する。
- 必要に応じて合成データで補強する(顕著な利得は見られなかった)。
実験結果
リサーチクエスチョン
- RQ1異なるモデル手法を用いて、名前の連続データから人種・民族をどれくらい正確に予測できるか?
- RQ2姓モデルと比べて、名を含むフルネームモデルは予測力を実質的に改善するか?
- RQ3名前データセット全体で、どのモデルタイプ(KNN、RF/GB、LSTM、Transformer)が最良のサンプル外性能を示すか?
- RQ4主要な民族人種カテゴリ(NH White、NH Black、Hispanic、Asian、Other)および全体で、モデルの性能はどうなるか?
- RQ5キャンペーン財務やニュースルームの多様性など、名前に基づく人種推定の実用的な影響は何か?
主な発見
| モデル | 全体 | NH White | NH Black | Hispanic | Asian | Other | N |
|---|---|---|---|---|---|---|---|
| Last-Name RF | 0.55 | 0.70 | 0.19 | 0.66 | 0.05 | 0.17 | 134,898 |
| Last-Name GB | 0.75 | 0.93 | 0.12 | 0.80 | 0.07 | 0.01 | 134,898 |
| Last-Name LSTM | 0.81 | 0.91 | 0.50 | 0.84 | 0.40 | 0.04 | 134,898 |
| Last-Name Transformer | 0.73 | 0.90 | 0.09 | 0.79 | 0.03 | 0.00 | 134,898 |
| Full-Name RF | 0.77 | 0.84 | 0.41 | 0.77 | 0.22 | 0.01 | 901,862 |
| Full-Name GB | 0.68 | 0.79 | 0.03 | 0.54 | 0.24 | 0.00 | 901,862 |
| Full-Name LSTM | 0.85 | 0.92 | 0.76 | 0.86 | 0.63 | 0.07 | 901,760 |
| Full-Name Transformer | 0.70 | 0.88 | 0.00 | 0.66 | 0.00 | 0.01 | 901,760 |
- 姓モデル: LSTMは複雑なモデルの中で最も高いサンプル外精度を達成(全体0.81、NH White 0.91、NH Black 0.50、Hispanic 0.84、Asian 0.40、Other 0.04)。
- フルネームモデル: LSTMは姓モデルを上回り、全体精度0.85(NH White 0.92、NH Black 0.76、Hispanic 0.86、Asian 0.63、Other 0.07)。
- KNNベースラインは競争力があり、姓KNN(コサイン距離)は約0.78、52kのホールドアウト、フルネームKNNは約0.73全体。
- フルネームモデルの中で、LSTMが全体およびカテゴリごとの性能で他のアーキテクチャ(RF、GB、Transformer)を再度上回る。
- 合成データの追加は精度を有意に向上さなかった。
- 具体的な応用として、レース別の寄付(フロリダ州フルネーム LSTM)およびニュースルームの多様性(Top Newsデータ)を示し、著者と言及の人口統計的歪みを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。