[논문 리뷰] Compositional Semantic Parsing with Large Language Models
논문은 LM 기반 구문 파싱과 동적 예시 선택을 활용한 동적 최소-에서 최대 프롬프트(dynamic least-to-most prompting)를 제시하여 CFQ에서 최첨단 합성 일반화(Semantic) 달성(평균 95.0%)과 COGS에서 강력한 결과(99.2%)를 약 1%의 학습 데이터만 사용해 얻는다.
Humans can reason compositionally when presented with new tasks. Previous research shows that appropriate prompting techniques enable large language models (LLMs) to solve artificial compositional generalization tasks such as SCAN. In this work, we identify additional challenges in more realistic semantic parsing tasks with larger vocabulary and refine these prompting techniques to address them. Our best method is based on least-to-most prompting: it decomposes the problem using prompting-based syntactic parsing, then uses this decomposition to select appropriate exemplars and to sequentially generate the semantic parse. This method allows us to set a new state of the art for CFQ while requiring only 1% of the training data used by traditional approaches. Due to the general nature of our approach, we expect similar efforts will lead to new results in other tasks and domains, especially for knowledge-intensive applications.
연구 동기 및 목표
- 현실적 의미 해석 벤치마크 CFQ와 COGS에서 합성 일반화에 addressing
- 더 큰 어휘와 복합 문법을 다루도록 최소-에서-최대 프롬프트를 적응 및 확장
- 높은 정확도를 유지하면서 학습 데이터 요구를 줄임
- 구문 분해에 guided된 동적 예시 선택 전략 개발
제안 방법
- 입력 값을 LM 예측 구문 파싱을 통해 트리 구조로 분해하는 동적 최소-에서-최대 프롬프트.
- 상향 및 하향 일치를 기반으로 분해 트리를 커버하기 위한 소규모 예시 풀의 동적 선택.
- 분해 트리를 선형화하고 마지막 출력 이전에 서브 문제를 해결하도록 모델에 프롬팅하여 서브 문제 해결의 순차적 생성.
- 효과성 및 데이터 효율성을 평가하기 위해 체인-오브-Thought 프롬프팅 및 완전 지도 학습 베이스라인과의 비교.
- LM 백본으로 Codex (code-davinci-002) 사용 및 다중 프롬프트에 대해 자가 일관성으로 탐욕적 디코딩
실험 결과
연구 질문
- RQ1동적 최소-에서-최대 프롬 prompting이 CFQ와 COGS와 같은 현실적 의미 해석 작업으로 합성 일반화를 확장할 수 있는가?
- RQ2구문 분해 및 동적 예시 선택을 어떻게 설계하여 큰 어휘 및 맥락 의존적 번역을 다루는가?
- RQ3제안된 접근법은 정확도와 데이터 효율성 측면에서 완전 지도 미세 조정 및 체인-오브-Thought 프롬프팅과 어떻게 비교되는가?
주요 결과
| MCD1 | MCD2 | MCD3 | Ave. |
|---|---|---|---|
| 94.3 | 95.3 | 95.5 | 95.0 |
- CFQ에서 동적 최소-에서-최대는 MCD 분할에서 약 1%의 학습 데이터로 평균 정확도 95.0%를 달성하며 새로운 최첨단을 설정했다.
- CFQ 개선은 이전 최적 결과 대비 약 45%의 오차율 감소에 해당한다.
- COGS에서 이 접근법은 일반화 테스트 세트에서 약 0.4%의 학습 데이터로 99.2% 정확도를 기록했다.
- 예시 풀 크기 강건성이 입증되었으며, 예시 풀이 작아도(예: 데이터의 0.1% 미만) 방법이 여전히 경쟁력이 있다.
- 동적 최소-에서-최대는 그들의 실험에서 일반적인 소수-shot 및 체인-오브-Thought 프롬프팅보다 우수하게 수행되었고, 자가 일관성을 사용할 때 체인-오브-Thought의 약 두 배 속도인 것으로 보고되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.