QUICK REVIEW

[논문 리뷰] LLM-Based Test Case Generation in DBMS through Monte Carlo Tree Search

Yujia Chen, Yingli Zhou|arXiv (Cornell University)|2026. 03. 23.

Software Testing and Debugging Techniques인용 수 0

한 줄 요약

MIST는 계층적 특징 트리와 몬테카를로 트리 탐색으로 안내되는 경량 LLM을 사용하여 DBMS용 SQL 테스트 케이스를 생성하고, 파싱, 최적화, 실행, 저장에 걸친 코드 커버리지를 향상시킵니다.

ABSTRACT

Database Management Systems (DBMSs) are fundamental infrastructure for modern data-driven applications, where thorough testing with high-quality SQL test cases is essential for ensuring system reliability. Traditional approaches such as fuzzing can be effective for specific DBMSs, but adapting them to different proprietary dialects requires substantial manual effort. Large Language Models (LLMs) present promising opportunities for automated SQL test generation, but face critical challenges in industrial environments. First, lightweight models are widely used in organizations due to security and privacy constraints, but they struggle to generate syntactically valid queries for proprietary SQL dialects. Second, LLM-generated queries are often semantically similar and exercise only shallow execution paths, thereby quickly reaching a coverage plateau. To address these challenges, we propose MIST, an LLM-based test case generatIon framework for DBMS through Monte Carlo Tree search. MIST consists of two stages: Feature-Guided Error-Driven Test Case Synthetization, which constructs a hierarchical feature tree and uses error feedback to guide LLM generation, aiming to produce syntactically valid and semantically diverse queries for different DBMS dialects, and Monte Carlo Tree Search-Based Test Case Mutation, which jointly optimizes seed query selection and mutation rule application guided by coverage feedback, aiming at boosting code coverage by exploring deeper execution paths. Experiments on three widely-used DBMSs with four lightweight LLMs show that MIST achieves average improvements of 43.3% in line coverage, 32.3% in function coverage, and 46.4% in branch coverage compared to the baseline approach with the highest line coverage of 69.3% in the Optimizer module.

연구 동기 및 목표

다양한 방언과 더 깊은 실행 경로를 포착하는 고품질 SQL 테스트 케이스를 생성하여 DBMS의 견고한 테스트를 촉진한다.
특징 주도적이고 에러 주도적 합성 단계와 MCTS 기반 변이 단계를 사용하여 데이터 액세스 계층(DAL) 및 의미론적 차이를 극복한다.
로컬에 배포된 경량 LLM만 사용하여 DBMS 구성요소 전반에서 더 높은 코드 커버리지를 달성한다.
광범위한 실험을 통해 DBMS 아키텍처와 다양한 LLM 크기에서 일반화 가능성을 보여준다.

제안 방법

공식 DBMS 문서로부터 계층적 특징 트리를 구성하여 LLM 기반 테스트 케이스 생성을 안내한다.
실행된 테스트의 오류 피드백을 사용하여 LLM 프롬트를 반복적으로 개선한다(특징 주도적, 오류 주도적 합성).
커버리지 피드백에 따라 135개의 방언 인식 변이 규칙을 사용하여 테스트 케이스를 변이시키고 확장하기 위해 몬테카를로 트리 탐색을 적용한다.
테스트 케이스의 성공을 암시적 오라클로 간주하여 기능적 정확성보다는 구문 유효성 및 런타임 안정성에 초점을 맞춘다.
실행 전에 실행 가능성을 보장하고 비-SQL 콘텐츠를 제거하기 위해 생성된 SQL을 후처리한다.

Figure 1 . An illustrative example of using Qwen2.5-7B to generate a SQL test case for DBMS.

실험 결과

연구 질문

RQ1RQ1: MIST가 기준선과 비교하여 DBMS의 코드 커버리지를 얼마나 효과적으로 향상시키는가?
RQ2RQ2: MIST가 서로 다른 DBMS 모듈(Parser, Optimizer, Executor, Storage)에서 어떻게 성능을 보이는가?
RQ3RQ3: 커버리지 향상에 두 단계(합성 및 변이)의 기여도는 어느 정도인가?
RQ4RQ4: 결과가 서로 다른 LLM 크기와 DBMS 아키텍처에서도 일반화되는가?

주요 결과

MIST는 기준선 대비 평균 행 커버리지 43.3%, 함수 커버리지 32.3%, 분기 커버리지 46.4%의 개선을 달성한다.
MIST는 Optimizer 모듈에서 최상위 행 커버리지를 달성한다(DuckDB 69.3%, PostgreSQL 63.4%).
개선은 DuckDB, PostgreSQL, SQLite 전반에 걸쳐 발생하며, 네 가지 평가된 LLM 중 작은 모델이 더 큰 기준선보다 성능이 우수한 경우를 포함한다.
DuckDB 및 PostgreSQL의 Parser, Optimizer, Executor, Storage 모듈에서 상당한 이득이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.