[논문 리뷰] Capacity Constraints Make Admissions Processes Less Predictable
논문은 입학의 용량 제약이 코호트 의존성을 만들어 표준 ML 모델이 예측하기 어려워 되며, 이는 결정의 불안정성과 가변성을 초래하고 지원자 풀이 바뀌면 예측 성능이 저하된다고 주장한다.
Machine learning models are often used to make predictions about admissions process outcomes, such as for colleges or jobs. However, such decision processes differ substantially from the conventional machine learning paradigm. Because admissions decisions are capacity-constrained, whether a student is admitted depends on the other applicants who apply. We show how this dependence affects predictive performance even in otherwise ideal settings. Theoretically, we introduce two concepts that characterize the relationship between admission function properties, machine learning representation, and generalization to applicant pool distribution shifts: instability, which measures how many existing decisions can change when a single new applicant is introduced; and variability, which measures the number of unique students whose decisions can change. Empirically, we illustrate our theory on individual-level admissions data from the New York City high school matching system, showing that machine learning performance degrades as the applicant pool increasingly differs from the training data. Furthermore, there are larger performance drops for schools using decision rules that are more unstable and variable. Our work raises questions about the reliability of predicting individual admissions probabilities.
연구 동기 및 목표
- 입학의 용량 제약이 코호트 의존적 결정을 만들고 표준 ML 가정에 도전하는 동기를 제시한다.
- 풀 변화에서 일반화에 영향을 주는 입학 함수의 특성을 정의하고 형식화한다(불안정성과 가변성).
- 선택 함수 이론과 머신 러닝 표현을 연결하여 ML이 입학 프로세스를 신뢰성 있게 표현할 수 있는 시점을 평가한다.
- NYC 고등학교 매칭 데이터와 합성 시뮬레이션을 이용해 풀이 바뀔 때 예측 도전과 이론 검증을 실증적으로 수행한다.
제안 방법
- 용량 제약(q-acceptant) 하의 선택 함수로 입학을 모델링한다.
- 불안정을 새 지원자가 추가될 때 기존 결정 중 최대 몇 개가 바뀔 수 있는지로 정의한다.
- 가변성을 새로 들어온 지원자로 인해 대체될 수 있는 서로 다른 합격 학생의 최대 수로 정의한다.
- ML 표현과 선택 함수 특성의 관계를 밝히고 독립 예측 모델이 불안정/가변 함수는 표현할 수 없음을 보인다.
- 총정렬을 가진 각 큐의 연쇄적 구성이 허용 가능한 예측 표현을 포착하는지 여부를 특징짓는다.
- 다양한 풀이 구성 및 선택 함수에서 NYC High School 매치를 시뮬레이터를 이용해 생성된 반사실적 입학으로 적용한다.
실험 결과
연구 질문
- RQ1용량 제약이 입학 결정에 어떤 코호트 의존성을 유도하는가?
- RQ2입학 선택 함수의 불안정성 및 가변성 특성은 ML 표현성에 어떻게 연관되는가?
- RQ3풀이 분포 변화하에서 입학 결과에 대한 ML 예측 성능은 어떻게 악화되는가?
- RQ4다양한 NYC 프로그램 유형(Ed. Opt, Screened/Open, DIA 유무)이 불안정성 및 가변성에 어떻게 차이를 보이며 예측 가능성에 어떤 영향을 미치는가?
주요 결과
- 용량 제약 입학은 표준 독립적으로 예측하는 ML 모델이 충실하게 표현할 수 없는 코호트 의존적 결정을 만든다.
- 불안정성과 가변성은 풀이 변화에 따라 얼마나 많은 결정이 바뀌는지, 새 지원자로 인해 얼마나 많은 서로 다른 합격 학생이 대체될 수 있는지를 정량화한다.
- NYC 데이터에서 저자들은 서로 다른 풀이 구성에서 입학을 시뮬레이션하고 풀이가 시간에 따라 바뀔 때 ML 예측 정확도가 감소함을 발견한다.
- 다양한 프로그램 유형은 불안정성 및 가변성을 다르게 나타내며 다중 큐(연쇄 구조)가 단일 큐보다 더 높은 가변성을 낳는다.
- 모든 NYC 함수는 1-불안정이며 가변성은 큐의 수와 같다(Screened/Open은 1; DIA가 있는 Ed. Opt의 경우 최대 6까지).
- 개별 지원자별 결과를 독립적으로 예측하는 ML 모델의 표현은 0-불안정에서 1-불안정 함수까지를 포착하지 못하며 더 높은 불안정성/가변성에서 실패한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.