Skip to main content
QUICK REVIEW

[論文レビュー] Content vs. Form: What Drives the Writing Score Gap Across Socioeconomic Backgrounds? A Generated Panel Approach

Nadav Kunievsky, Pedro Pertusi|arXiv (Cornell University)|Jan 6, 2026
Writing and Handwriting Education被引用数 0
ひとこと要約

論文はLLMリライトを用いた生成パネルを使い、SES格差を作文スコアの内容・文体・採点規則の要素に分解し、内容が格差の約69%、文体が約26%、採点差が約5%を説明することを発見します。

ABSTRACT

Students from different socioeconomic backgrounds exhibit persistent gaps in test scores, gaps that can translate into unequal educational and labor-market outcomes later in life. In many assessments, performance reflects not only what students know, but also how effectively they can communicate that knowledge. This distinction is especially salient in writing assessments, where scores jointly reward the substance of students' ideas and the way those ideas are expressed. As a result, observed score gaps may conflate differences in underlying content with differences in expressive skill. A central question, therefore, is how much of the socioeconomic-status (SES) gap in scores is driven by differences in what students say versus how they say it. We study this question using a large corpus of persuasive essays written by U.S. middle- and high-school students. We introduce a new measurement strategy that separates content from style by leveraging large language models to generate multiple stylistic variants of each essay. These rewrites preserve the underlying arguments while systematically altering surface expression, creating a "generated panel" that introduces controlled within-essay variation in style. This approach allows us to decompose SES gaps in writing scores into contributions from content and style. We find an SES gap of 0.67 points on a 1-6 scale. Approximately 69% of the gap is attributable to differences in essay content quality, Style differences account for 26% of the gap, and differences in evaluation standards across SES groups account for the remaining 5%. These patterns seems stable across demographic subgroups and writing tasks. More broadly, our approach shows how large language models can be used to generate controlled variation in observational data, enabling researchers to isolate and quantify the contributions of otherwise entangled factors.

研究の動機と目的

  • SESの作文スコア格差は表面的な文体だけでなく内容の違いを反映している可能性を動機づける。
  • 意味を preserve しつつLLM生成リライトを用いて内容と文体を分離する方法を開発する。
  • 観測されたSES格差に対する内容・文体・採点規則の相対寄与を推定する。
  • 所見の信頼性を人口統計サブグループと課題タイプ間で評価する。
  • 公平性と研究設計に対する政策的・方法論的含意を論じる。

提案手法

  • 内容と文体の成分が加法的に寄与する分離可能なスコアリング枠組みを提案する。
  • 内容を保ちながら各エッセイを複数の文体リライトをLLMで生成し、生成パネルを作成する。
  • 人間のスコアから勾配ブースト木を用いてグループ別のスコアリング関数を推定する。
  • Kitagawa–Oaxaca–Blinder風の分解を用いて観測されたSES格差を内容・文体・採点コンポーネントに分解する。
  • リライト平均化スコアを用いて内容ギャップと逸脱を特定し、文体ギャップを特定する。
Figure 1 : The Score Distribution For High and Low SES students
Figure 1 : The Score Distribution For High and Low SES students

実験結果

リサーチクエスチョン

  • RQ1作文スコアのSES格差のうち、内容の違いと文体の違いの割合はどれくらいか。
  • RQ2リライトベースの方法はグループ間・課題間で内容と文体を安定して分離できるか。
  • RQ3内容と文体の寄与は学年と人口統計サブグループでどう異なるか。
  • RQ4AIベースの文体標準化が作文評価の公平性に与える政策的影響は何か。
  • RQ5内容と文体を固定したとき、採点規則の傾きが観測された格差にどれだけ寄与するか。

主な発見

  • 高SESの生徒は低SESの生徒より1–6スケールで0.67ポイント高く採点される。
  • 格差の約69%は内容の違いによる。
  • 格差の約26%は文体の違いによる。
  • 格差の約5%はグループ間の採点関数の違いによる。
  • 白人・非白人グループ、および男子・女子グループ間で内容差が約2/3〜3/4の格差を説明し、文体の寄与は高学年で上昇(6年生で約25%、11年生で40%以上)する。
(a) Low SES Score Function
(a) Low SES Score Function

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。