Skip to main content
QUICK REVIEW

[논문 리뷰] Getting too personal(ized): The importance of feature choice in online adaptive algorithms

Zhaobin Li, Luna Yee|arXiv (Cornell University)|2023. 09. 06.
Advanced Bandit Algorithms Research참고 문헌 22인용 수 7
한 줄 요약

이 논문은 학생 특성을 맥락형 다중팔 밴딧(MAB) 개인화에 포함하는 것이 온라인 교육 적응 시스템에 어떻게 도움을 주거나 해를 끼칠 수 있는지 조사하며, 특성이 실제로 어떤 버전이 최적인지에 영향을 미치는 경우에만 이점이 나타나고 그렇지 않은 경우 편향의 위험이 존재한다는 점을 보여준다.

ABSTRACT

Digital educational technologies offer the potential to customize students' experiences and learn what works for which students, enhancing the technology as more students interact with it. We consider whether and when attempting to discover how to personalize has a cost, such as if the adaptation to personal information can delay the adoption of policies that benefit all students. We explore these issues in the context of using multi-armed bandit (MAB) algorithms to learn a policy for what version of an educational technology to present to each student, varying the relation between student characteristics and outcomes and also whether the algorithm is aware of these characteristics. Through simulations, we demonstrate that the inclusion of student characteristics for personalization can be beneficial when those characteristics are needed to learn the optimal action. In other scenarios, this inclusion decreases performance of the bandit algorithm. Moreover, including unneeded student characteristics can systematically disadvantage students with less common values for these characteristics. Our simulations do however suggest that real-time personalization will be helpful in particular real-world scenarios, and we illustrate this through case studies using existing experimental results in ASSISTments. Overall, our simulations show that adaptive personalization in educational technologies can be a double-edged sword: real-time adaptation improves student experiences in some contexts, but the slower adaptation and potentially discriminatory results mean that a more personalized model is not always beneficial.

연구 동기 및 목표

  • 맥락적 MAB를 통한 개인화가 온라인 교육 기술에서 학생 결과에 어떤 영향을 미치는지 평가한다.
  • 서로 다른 outcome 모델 하에서 학생 특성을 포함하는 것이 성능을 개선하는지 악화시키는지 평가한다.
  • 특징 분포의 불균등으로 인해 발생하는 편향 및 형평성 위험을 조사한다.
  • 시뮬레이션 결과를 실제 데이터와 연결시켜 교육 설계에 대한 실무적 시사점을 논의한다.

제안 방법

  • 특징들에 의해 주어진 보상 확률을 모델링하기 위해 regularized Bayesian logistic regression를 사용하는 contextual Thompson sampling를 이용한다.
  • Baseline, Universal optimal action, and Personalized optimal action를 가진 세 가지 outcome-generating 모델을 시뮬레이션한다.
  • 학습 및 후회를 평가하기 위해 맥락 변수의 수를 1에서 최대 10까지 변화시킨다.
  • 각 1000개의 트라이얼에 걸쳐 50, 250, 1000명의 수업 규모로 horizon 효과를 검토한다.
  • ANCOVA로 성능을 분석하고 효과 크기와 신뢰 구간을 보고한다.
Figure 1: Swarm plots for the proportion of optimal actions for the two bandit types. Each point represents results from one trial with 250 students. For the universal optimal action, all scenarios show similar results; hence only scenario (1) is shown. The decreased performance of the contextual ba
Figure 1: Swarm plots for the proportion of optimal actions for the two bandit types. Each point represents results from one trial with 250 students. For the universal optimal action, all scenarios show similar results; hence only scenario (1) is shown. The decreased performance of the contextual ba

실험 결과

연구 질문

  • RQ1학생 특성을 context MAB에 포함시켰을 때 학습 결과가 개선되거나 악화되는 조건은 무엇인가?
  • RQ2맥락 특징의 수가 탐색, 학습 속도, 그리고 학생 하위그룹 간 형평성에 어떤 영향을 미치는가?
  • RQ3개인화가 가장 큰 이점을 주는 시점은 언제이며 잠재적 해나 차별적 효과는 언제 발생하는가?
  • RQ4실제 특성 분포가 개인화의 이익이나 단점을 어떻게 변화시키는가?
  • RQ5ASSISTments의 사례 연구에서 실무에서 적응형 개인화를 구현하기 위한 어떤 지침이 제공되는가?

주요 결과

  • 맥락적 MABs는 최적의 행동이 실제로 학생 특성에 의존할 때에만 비맥락적 접근법보다 더 우수하다 (personalized optimal action model).
  • 불필요한 특징을 포함하는 것은 일반적으로 성능을 저하시켜 탐색 비용을 증가시키며, 특히 맥락 변수의 수가 많을 때 그렇다.
  • Baseline 및 Universal optimal action 시나리오에서 맥락적 개인화는 비맥락적 접근보다 성능이 떨어질 수 있으며 특히 초기 horizon에서 그렇다.
  • 소수 집단의 크기가 작을 때 맥락적 개인화는 희귀 특성 값에 대한 불확실성이 커서 소수 집단에 불균형적으로 해를 끼칠 수 있다.
  • 제한된 특징에도 불구하고 Personalized optimal action model에서 큰 horizon에서 소수 집단의 최적 행동 비율을 크게 향상시킬 수 있다.
  • ASSISTments 데이터를 사용한 사례 연구는 개인화의 잠재적 실무 이점을 보여주며 특징 포함을 위한 맥락 및 데이터 기반 의사 결정을 강조한다.
Figure 2: Average reward per student across 1–10 contextual variables for the two bandit types in the baseline model. In this model, the maximum possible expected reward is $0.6$ , and the expected reward for uniform random assignment is $0.5$ . Error bars represent 1 standard error.
Figure 2: Average reward per student across 1–10 contextual variables for the two bandit types in the baseline model. In this model, the maximum possible expected reward is $0.6$ , and the expected reward for uniform random assignment is $0.5$ . Error bars represent 1 standard error.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.