[논문 리뷰] Grammar Prompting for Domain-Specific Language Generation with Large Language Models
문법 프롬프팅은 각 예제마다 최소한의 특수한 BNF 문법을 예측한 다음 그 문법으로 제한적으로 디코딩하여 LLM이 DSL 출력을 생성하게 함으로써, 의미 해석, 계획, 분자 생성 작업 전반에 걸친 소수 샘플 학습에서 DSL 생성 성능을 개선합니다.
Large language models (LLMs) can learn to perform a wide range of natural language tasks from just a handful of in-context examples. However, for generating strings from highly structured languages (e.g., semantic parsing to complex domain-specific languages), it is challenging for the LLM to generalize from just a few exemplars. We propose \emph{grammar prompting}, a simple approach to enable LLMs to use external knowledge and domain-specific constraints, expressed through a grammar in Backus--Naur Form (BNF), during in-context learning. Grammar prompting augments each demonstration example with a specialized grammar that is minimally sufficient for generating the particular output example, where the specialized grammar is a subset of the full DSL grammar. For inference, the LLM first predicts a BNF grammar given a test input, and then generates the output according to the rules of the grammar. Experiments demonstrate that grammar prompting can enable LLMs to perform competitively on a diverse set of DSL generation tasks, including semantic parsing (SMCalFlow, Overnight, GeoQuery), PDDL planning, and SMILES-based molecule generation.
연구 동기 및 목표
- 적은 예제가 있을 때 구조화된 DSL 출력을 데이터 효율적으로 생성하도록 동기를 부여한다.
- 맥락 학습을 제약하고 디코딩을 안내하기 위해 특수하고 최소한의 BNF 문법을 활용한다.
- 의미 해석, 계획, 분자 생성 전반에 걸쳐 표준 프롬프팅 대비 개선을 입증한다.
제안 방법
- 목표 출력 y를 생성하기에 충분한 최소한의 특수 문법 G[y]를 각 인-컨텍스트 시연에 보강한다.
- G와 인-컨텍스트 예제로부터 특수 문법 G_hat를 예측한 다음 G_hat를 조건으로 y를 생성한다.
- 출력이 L(G_hat)에 속하도록 제약된 디코딩 알고리즘(Earley 기반)을 적용하고 잘못된 접두사를 수정한다.
- 원시 LLM의 연속이 유효하지 않을 때 Earley 파서를 사용하여 유효한 접두사를 추출하고 토큰 선택을 안내한다.
- 다양한 DSL 도메인에서 문법 프롬프팅을 표준 프롬프팅 및 제약 디코딩 기준선과 비교한다.
실험 결과
연구 질문
- RQ1문법 프롬프팅이 표준 프롬프팅보다 소수 샷 설정에서 LLM이 DSL 출력을 더 정확하게 생성하도록 할 수 있는가?
- RQ2특수 문법을 예측하고 제약하는 것이 보지 못한 DSL 구성 요소나 함수에 대한 일반화를 향상시키는가?
- RQ3문법 지침이 있는 제약 디코딩이 계산 비용과 출력 유효성에 어떤 영향을 미치는가?
- RQ4의미 해석, PDDL 계획, 그리고 SMILES 기반 분자 생성 등 다양한 DSL에 대해 문법 프롬프팅이 효과적인가?
주요 결과
- 문법 프롬프팅은 의미 해석 벤치마크(GeoQuery, SMCalFlow, Overnight-Blocks)에서 표준 프롬프팅에 비해 프로그램 및 실행 정확도를 향상시킨다.
- 예측된 문법을 이용한 제약 디코딩은 여러 작업에서 비제약 문법 프롬프팅보다 추가 이점을 가져온다.
- 특수 문법 프롬핑은 보지 못한 함수 및 구성적/일반화 분할(GeoQuery)에 대해 원시 프롬프트에 비해 일반화가 더 잘 된다.
- 여러 기본 LLM에 걸쳐 문법 프롬프팅은 소수 샷 설정에서 일관되게 성능을 향상시키며, 도메인 및 모델에 따라 다소 차이가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.