Skip to main content
QUICK REVIEW

[논문 리뷰] Underspecification Presents Challenges for Credibility in Modern Machine Learning

Alexander D’Amour, Katherine Heller|arXiv (Cornell University)|2020. 11. 06.
Machine Learning in Healthcare참고 문헌 117인용 수 430
한 줄 요약

논문은 ML 파이프라인의 과소정의가 iid 성능이 비슷한 예측기가 배포에서 매우 다르게 동작하게 만든다고 주장하며, 여러 도메인에 걸친 스트레스 테스트 증거를 제공하여 엄격한 평가 및 설계의 필요성을 제시한다.

ABSTRACT

ML models often exhibit unexpectedly poor behavior when they are deployed in real-world domains. We identify underspecification as a key reason for these failures. An ML pipeline is underspecified when it can return many predictors with equivalently strong held-out performance in the training domain. Underspecification is common in modern ML pipelines, such as those based on deep learning. Predictors returned by underspecified pipelines are often treated as equivalent based on their training domain performance, but we show here that such predictors can behave very differently in deployment domains. This ambiguity can lead to instability and poor model behavior in practice, and is a distinct failure mode from previously identified issues arising from structural mismatch between training and deployment domains. We show that this problem appears in a wide variety of practical ML pipelines, using examples from computer vision, medical imaging, natural language processing, clinical risk prediction based on electronic health records, and medical genomics. Our results show the need to explicitly account for underspecification in modeling pipelines that are intended for real-world deployment in any domain.

연구 동기 및 목표

  • ML 파이프라인에서의 과소정의(underspecification)를 정의하고 그것이 배포 신뢰성에 미치는 영향을 설명한다.
  • 거의 iid-optimal 예측기가 서로 다른 귀납 편향을 인코드하여 배포에서 서로 다른 행동을 보일 수 있음을 보여준다.
  • 컴퓨터 비전, 의학 영상, 자연어 처리, 전자 건강 기록 기반 예측, 유전체학 전반에 걸쳐 실험적으로 과소정의를 시연한다.
  • 실제 배포에서 신뢰할 수 있는 귀납 편향을 보장하기 위한 처방으로 스트레스 테스트와 제약조건을 제시한다.

제안 방법

  • ML 파이프라인에서의 과소정의 개념을 '여러 예측기가 거의 최적의 iid 성능을 달성하는' 상태로 형식화한다.
  • 간단한 해석적 모델(전염병학, 랜덤 피처 모델, 다유전체 위험 점수)을 사용해 비슷한 학습 성능을 가진 서로 다른 예측기가 서로 다른 배포 결과를 초래하는 과정을 설명한다.
  • 도메인 전반에 걸친 생산 등급의 딥 러닝 파이프라인에 대해 계층화된,stratified, 이동된(shifted), 대비적(contrastive) 평가로 구성된 스트레스 테스트 프로토콜을 적용한다.
  • 컴퓨터 비전, 의료 영상, NLP, 전자 건강 기록에서의 과소정의에 대한 실증적 증거를 문서화한다.
  • iid 성능을 해치지 않으면서 파이프라인을 신뢰 가능한 귀납 편향으로 제한하는 훈련 및 평가 기법을 주장한다.

실험 결과

연구 질문

  • RQ1ML 파이프라인의 과소정의가 무엇이며 배포 신뢰성에 어떻게 영향을 미치는가?
  • RQ2얼마나 비슷한 iid 성능을 가진 예측기도 서로 다른 귀납 편향으로 인해 배포에서 다르게 발현될 수 있는가?
  • RQ3스트레스 테스트가 다양한 ML 응용 분야에서 과소정의를 어떻게 드러낼 수 있는가?

주요 결과

  • 현대 ML에서 과소정의가 널리 퍼져 있어 iid 평가로 포착되지 않는 배포에 민감한 동작으로 이어진다.
  • 스트레스 테스트(계층화된, 이동된, 대비적 평가)가 일반적인 iid 테스트가 놓치는 예측기 동작의 가변성을 드러낸다.
  • 거의 동일한 iid 위험을 가진 서로 다른 예측기가 분포 변화나 적대적 변화 하에서 상당히 다른 위험을 보일 수 있다.
  • iid 성능이 유지되더라도 특정 변화에 취약해져 신뢰성을 약화시킨다.
  • 문제는 컴퓨터 비전, 의료 영상, NLP, EHR 기반 위험 예측, 의료 유전체학 등 도메인에 걸쳐 지속된다.
  • 목표지향적 훈련/평가 전략을 통해 과소정의를 해결하면 iid 성능을 해치지 않으면서 신뢰성을 높일 수 있다.]
  • table_headers:[]
  • table_rows:[]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.