[논문 리뷰] STELLAR: A Search-Based Testing Framework for Large Language Model Applications
STELLAR은 이산화된 특징 공간(콘텐츠, 스타일, 섭동)에 대한 진화적 탐색을 사용하여 LLM 기반 애플리케이션의 테스트 입력 생성을 자동화하고, 잘못되었거나 안전하지 않은 응답을 발견하며, 안전성 및 내비게이션 사용 사례에서 랜덤 탐색 및 ASTRAL과 같은 기준선보다 우수합니다.
Large Language Model (LLM)-based applications are increasingly deployed across various domains, including customer service, education, and mobility. However, these systems are prone to inaccurate, fictitious, or harmful responses, and their vast, high-dimensional input space makes systematic testing particularly challenging. To address this, we present STELLAR, an automated search-based testing framework for LLM-based applications that systematically uncovers text inputs leading to inappropriate system responses. Our framework models test generation as an optimization problem and discretizes the input space into stylistic, content-related, and perturbation features. Unlike prior work that focuses on prompt optimization or coverage heuristics, our work employs evolutionary optimization to dynamically explore feature combinations that are more likely to expose failures. We evaluate STELLAR on three LLM-based conversational question-answering systems. The first focuses on safety, benchmarking both public and proprietary LLMs against malicious or unsafe prompts. The second and third target navigation, using an open-source and an industrial retrieval-augmented system for in-vehicle venue recommendations. Overall, STELLAR exposes up to 4.3 times (average 2.5 times) more failures than the existing baseline approaches.
연구 동기 및 목표
- LLM 기반 애플리케이션에 대한 정적 벤치마크와 수동 프롬프트 튜닝을 넘어 견고한 테스트를 촉진합니다.
- 자연어 입력을 콘텐츠, 스타일, 섭동 피처로 이산화하여 고차원 입력 공간을 관리합니다.
- 오류를 유발하는 입력을 찾아내는 자동화된 진화적 탐색 프레임워크를 개발합니다.
- 안전 중심의 LLM 시스템과 내비게이션 지향 LLM 시스템에서 STELLAR를 평가하고 기준선과 비교합니다.
제안 방법
- 테스트 생성을 피트니스 중심의 목적 함수를 갖는 탐색 기반 최적화 문제로 모델링합니다.
- 입력 공간을 피처 F = {F_S(스타일), F_C(콘텐츠), F_P(섭동)}로 이산화하고 도메인 제약 C_F를 적용합니다.
- 최적화를 위한 피처 벡터를 인코딩하고 테스트 생성 전에 제약 조건 처리를 적용합니다.
- 도메인 특화 프롬트를 구체화하고 검색 보강 생성(RAG)을 사용하여 실행 가능한 테스트 입력을 생성합니다.
- 가능한 다목적 피트니스 함수와 실패를 식별하는 오라클로 테스트 입력을 평가합니다.
- 토너먼트 선택, 순서형 피처에 대한 SBX 크로스오버, 범주형 피처의 균일성/돌연변이 등 진화 연산자와 생존에 NSGA-II를 적용합니다.

실험 결과
연구 질문
- RQ1RQ0: LLM 기반 판별자가 테스트 합격/불합격 결과를 평가하는 정확도는 얼마나 되는가?
- RQ2RQ1: STELLAR가 LLM 애플리케이션의 실패를 식별하는 데 얼마나 효과적인가?
- RQ3RQ2: 생성된 실패의 다양성은 얼마나 되는가?
주요 결과
- STELLAR은 기준선 접근법보다 최대 4.3×(평균 2.5×) 더 많은 실패를 드러낸다.
- SafeQA와 NaviQA 전반에서 STELLAR은 무작위 탐색, 조합 탐색, 커버리지 기반 기준선(ASTRAL 등)보다 꾸준히 더 많은 실패 입력을 찾는다.
- 판별자가 LLM 평가에 기반한 경우 SafeQA에서 이진 F1이 최대 0.79, 연속적 F1이 약 0.79에 도달하고, NaviQA에서는 이진 F1이 0.65–0.73 범위이다.
- 클러스터링을 통한 다양성 분석은 접근 간 실패 유형에 대해 의미 있는 커버리지를 나타낸다.
- 본 연구는 STELLAR의 안전 중심 사례와 두 가지 내비게이션 지향의, 검색 보강 시스템(Open 소스 및 산업적)의 효과를 증명한다.
- 프레임워크는 도메인 특정 프롬프트 템플릿, RAG 검색, 탐색과 이용의 균형을 이루는 진화적 탐색을 통합한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.