QUICK REVIEW

[논문 리뷰] Improving Deep Learning Library Testing with Machine Learning

Facundo Molina, M M Abid Naziri|arXiv (Cornell University)|2026. 02. 03.

Software Testing and Debugging Techniques인용 수 0

한 줄 요약

이 논문은 ML 분류기를 학습시켜 DL 라이브러리 API(TensorFlow와 PyTorch)의 입력 타당성을 판단하고, 일반화 정확도 91% 이상을 달성하며 ACETest의 입력 합격률을 대략 29%에서 60.7%로 향상시킨다.

ABSTRACT

Deep Learning (DL) libraries like TensorFlow and Pytorch simplify machine learning (ML) model development but are prone to bugs due to their complex design. Bug-finding techniques exist, but without precise API specifications, they produce many false alarms. Existing methods to mine API specifications lack accuracy. We explore using ML classifiers to determine input validity. We hypothesize that tensor shapes are a precise abstraction to encode concrete inputs and capture relationships of the data. Shape abstraction severely reduces problem dimensionality, which is important to facilitate ML training. Labeled data are obtained by observing runtime outcomes on a sample of inputs and classifiers are trained on sets of labeled inputs to capture API constraints. Our evaluation, conducted over 183 APIs from TensorFlow and Pytorch, shows that the classifiers generalize well on unseen data with over 91% accuracy. Integrating these classifiers into the pipeline of ACETest, a SoTA bug-finding technique, improves its pass rate from ~29% to ~61%. Our findings suggest that ML-enhanced input classification is an important aid to scale DL library testing.

연구 동기 및 목표

복잡한 입력 제약으로 인한 DL 라이브러리 API 테스트에서 거짓 경보를 줄일 필요성을 제시한다.
텐서 모양 기반 추상화가 ML 모델용 입력을 효과적으로 인코딩할 수 있는지 조사한다.
보지 않은 입력 구성에 대한 ML 분류기의 일반화 가능성을 평가한다.
API 수준 퍼징 파이프라인(ACETest) 내 ML 분류기의 통합을 평가하여 테스트 효율성을 향상시킨다.

제안 방법

데이터 간의 관계를 포착하기 위해 텐서 모양을 사용하여 DL API 테스트 입력을 표현한다.
라벨링된 입력(유효/무효)에 대해 CatBoost, LightGBM, XGBoost, NeuralNetFastAI, ExtraTrees를 이용해 AutoGluon AutoML로 분류기를 학습시킨다.
무작위 샘플링과 페어와이즈 조합 테스트를 통해 입력에 라벨을 부여하여 학습 데이터를 생성한다.
보류된 데이터에서의 정밀도와 재현율을 평가하고 183개 API(98 PyTorch, 85 TensorFlow)에서 평가한다.
실행 전에 입력을 필터링하기 위한 프리필터로 ACETest에 성능이 가장 좋은 ML 모델을 통합한다.

실험 결과

연구 질문

RQ1RQ1 DL 라이브러리 API의 입력 제약을 학습하는 ML 모델은 얼마나 효과적인가?
RQ2RQ2 ML 모델은 학습 데이터 세트를 넘어서 일반화하는가?
RQ3RQ3 ML 모델이 DL 라이브러리 API의 테스트 입력 생성을 개선하는가?

주요 결과

ML 모델은 임의/페어와이즈 전략에서 PyTorch에서 최대 88% 정밀도 및 82% 재현율, TensorFlow에서 최대 91% 정밀도 및 80% 재현율을 달성한다.
모델은 183개의 연산자에서 보지 않은 데이터에 대해 91% 이상 정확도로 일반화되며, 정밀도 저하 사례는 20%, 재현율 저하는 12%에 불과하다.
페어와이즈 데이터 생성은 일반적으로 무작위 생성보다 더 나은 정밀도/재현율을 제공한다.
ACETest와 결합 시 ML 필터링으로 평균 합격률이 29.1%에서 60.7%로 상승한다.
ACETest+ML의 전체 테스트 시간은 감소하며(사례 연구에서 5K 입력에 대해 예: 7.4초 대 31초), 초당 유효 입력도 향상된다.
이 접근법은 복잡한 제약을 가진 API에 특히 효과적이며 산출물은 공개적으로 이용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.