Skip to main content
QUICK REVIEW

[論文レビュー] Reasoning Language Models for complex assessments tasks: Evaluating parental cooperation from child protection case reports

Dragan Stoll, Brian E. Perron|arXiv (Cornell University)|Feb 15, 2026
Language Development and Disorders被引用数 0
ひとこと要約

この論文は、子どもの保護ケース報告における親の協力度を評価するための推論型言語モデル(RLM)を評価し、モデルサイズを人間の専門家と比較します。

ABSTRACT

Purpose: Reasoning language models (RLMs) have demonstrated significant advances in solving complex reasoning tasks. We examined their potential to assess parental cooperation during CPS interventions using case reports, a case factor characterized by ambiguous and conflicting information. Methods: A four stage workflow comprising (1) case reports collection, (2) reasoning-based assessment of parental cooperation, (3) automated category extraction, and (4) case labeling was developed. The performance of RLMs with different parameter sizes (255B, 32B, 4B) was compared against human validated data. Two expert human reviewers (EHRs) independently classified a weighted random sample of reports. Results: The largest RLM achieved the highest accuracy (89%), outperforming the initial approach (80%). Classification accuracy was higher for mothers (93%) than for fathers (85%), and EHRs exhibited similar differences. Conclusions: RLMs' reasoning can effectively assess complex case factors such as parental cooperation. Lower accuracy in assessing fathers' cooperation supports the argument of a stronger professional focus on mothers in CPS interventions.

研究の動機と目的

  • 推論型言語モデルを、曖昧な情報で特徴づけられる複雑なCPS関連評価タスクでの活用を動機づける。
  • 親協力度評価のためにCPSケース報告を処理する4段階のワークフローを開発する。
  • 人間の検証分類と比べて、モデルサイズ別のRLMパフォーマンスを比較する。
  • 親協力度評価における性別関連の潜在的バイアスを特定する。

提案手法

  • 4段階のワークフロー: (1) ケース報告の収集、(2) 親協力度の推論ベース評価、(3) 自動カテゴリ抽出、(4) ケースラベリング。
  • 255B、32B、4BパラメータのRLMを人間による検証データと比較して評価。
  • 2人の専門家の人間評価者が、加重ランダムサンプルの報告を独立して分類。
  • RLMの正確性を定量化し、人間のパフォーマンスと比較する。

実験結果

リサーチクエスチョン

  • RQ1推論型言語モデルは、曖昧な情報を含むCPSケース報告から親協力度を信頼性高く評価できるか。
  • RQ2モデルサイズは親協力度の分類の正確性にどのように影響するか。
  • RQ3モデルと人間の評価の両方で、母親と父親の正確性に差は見られるか。

主な発見

  • 最大のRLMは最高の正確性89%を達成し、初期アプローチの80%を上回った。
  • 母親の分類正確性は93%で、父親は85%より高かった。
  • 人間の評価者も母親-父親の差を、モデルと類似した正確性差で示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。