Skip to main content
QUICK REVIEW

[논문 리뷰] A critical look at the current train/test split in machine learning

Jimin Tan, Jianan Yang|arXiv (Cornell University)|2021. 06. 08.
Machine Learning and Algorithms참고 문헌 39인용 수 43
한 줄 요약

논문은 고정된 train/test 분할을 비판하고, cold-start 및 데이터가 부족한 시나리오를 더 잘 처리하기 위해 deletion이 포함된 Adaptive Active Learning(AAL)을 제안하며, 약물-단백질 결합 데이터와 CIFAR-10에서 데이터 효율성이 향상됨을 보여준다.

ABSTRACT

The randomized or cross-validated split of training and testing sets has been adopted as the gold standard of machine learning for decades. The establishment of these split protocols are based on two assumptions: (i)-fixing the dataset to be eternally static so we could evaluate different machine learning algorithms or models; (ii)-there is a complete set of annotated data available to researchers or industrial practitioners. However, in this article, we intend to take a closer and critical look at the split protocol itself and point out its weakness and limitation, especially for industrial applications. In many real-world problems, we must acknowledge that there are numerous situations where assumption (ii) does not hold. For instance, for interdisciplinary applications like drug discovery, it often requires real lab experiments to annotate data which poses huge costs in both time and financial considerations. In other words, it can be very difficult or even impossible to satisfy assumption (ii). In this article, we intend to access this problem and reiterate the paradigm of active learning, and investigate its potential on solving problems under unconventional train/test split protocols. We further propose a new adaptive active learning architecture (AAL) which involves an adaptation policy, in comparison with the traditional active learning that only unidirectionally adds data points to the training pool. We primarily justify our points by extensively investigating an interdisciplinary drug-protein binding problem. We additionally evaluate AAL on more conventional machine learning benchmarking datasets like CIFAR-10 to demonstrate the generalizability and efficacy of the new framework.

연구 동기 및 목표

  • static train/test 분할이 약물 발견과 같은 데이터-희소 문제의 현실 세계에 제한적이라고 주장한다.
  • 전통적 AL 설정에서 분포 변화 이슈를 재고한다.
  • 데이터 효율성을 개선하기 위한 deletion 적응 정책이 있는 Adaptive Active Learning(AAL)을 제안한다.
  • 인터디isciplinar한 약물-단백질 결합 데이터와 벤치마크 데이터셋(CIFAR-10)에서 AAL을 시연한다.

제안 방법

  • Adaptive Active Learning(AAL) 프레임워크를 도입하여 데이터 추가와 삭제 기반의 적응 단계가 교대로 수행되도록 한다.
  • 추가 후에 ill-behaved 데이터를 제거하는 간단한 삭제 정책(AAL-delete)으로 AAL을 구현한다.
  • 추가/삭제를 위한 데이터 품질 지표를 정의한다(엔트로피, 특성 공간의 코사인 거리, 모델 앙상블/Dropout을 통한 불확실성).
  • 추가에 대해 탐험(exploitation: 예측 친화도 높은 데이터)과 탐색(불확실성/다양성)을 결합한 하이브리드 샘플링 전략을 사용한다.
  • KIBA 단백질-약물 결합 데이터와 CIFAR-10에서 평가하여 생물학을 넘어 일반화 가능성을 테스트하고 모델의 하이퍼파라미터 조정 없이 평가한다.

실험 결과

연구 질문

  • RQ1적응적 데이터 선택이 추가와 삭제를 통해 비정적이고 분포가 변화하는 조건에서 데이터 효율성을 향상시킬 수 있는가?
  • RQ2고정된 train/test 분할이 약물 발견 및 유사 도메인에서 배치를 저해하는가?
  • RQ3실세계 및 표준 벤치마크에서 전통적 활성학습과 무작위 샘플링에 비해 AAL은 어떻게 성능을 보이는가?
  • RQ4반복 학습 과정에서 데이터를 추가하고 삭제하는 효과적인 정책은 무엇인가?
  • RQ5AAL이 약물 발견과 컴퓨터 비전 같은 도메인에서 일반화 가능한가?

주요 결과

  • KIBA에서 AAL-Hybrid는 기준선보다 더 빠르게 0.3 커버리지 점수에 도달하고 더 적은 데이터로 달성한다.
  • AAL-Hybrid는 Random 및 AL-Greedy와 비교할 때 동일한 커버리지를 달성하는 데 필요한 라벨링 샘플 수가 더 적어 데이터 효율이 높음을 나타낸다.
  • CIFAR-10에서 AL과 AAL은 모두 Random보다 우수하며, 학습 세트가 커질수록 AAL의 성능이 더 강해진다.
  • 데이터 제약 시나리오에서 AAL은 AL-Hybrid 및 AL-Greedy보다 지속적으로 더 나은 성능을 보인다.
  • 추가와 불확실성에 의한 삭감을 결합한 하이브리드 전략은 분포 변화(...)를 완화하고 순수한 그리디 전략에서 흔히 보이는 지역 최솟값을 피한다.
  • 이 프레임워크의 일반화 가능성이 약물 발견을 넘어서 표준 ML 벤치마크까지 확장됨을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.