[논문 리뷰] Decomposed Prompting: A Modular Approach for Solving Complex Tasks
DecomP는 복잡한 작업을 더 단순한 하위 작업으로 분해하고, 구성 모듈형 하위 작업 프롬프트와 선택적으로 심볼릭 또는 외부 도구를 사용하여 다양한 추론 과제에서 소수 샷 성능을 향상시키고 구성 요소의 유연한 재사용 및 교체를 가능하게 합니다.
Few-shot prompting is a surprisingly powerful way to use Large Language Models (LLMs) to solve various tasks. However, this approach struggles as the task complexity increases or when the individual reasoning steps of the task themselves are hard to learn, especially when embedded in more complex tasks. To address this, we propose Decomposed Prompting, a new approach to solve complex tasks by decomposing them (via prompting) into simpler sub-tasks that can be delegated to a library of prompting-based LLMs dedicated to these sub-tasks. This modular structure allows each prompt to be optimized for its specific sub-task, further decomposed if necessary, and even easily replaced with more effective prompts, trained models, or symbolic functions if desired. We show that the flexibility and modularity of Decomposed Prompting allows it to outperform prior work on few-shot prompting using GPT3. On symbolic reasoning tasks, we can further decompose sub-tasks that are hard for LLMs into even simpler solvable sub-tasks. When the complexity comes from the input length, we can recursively decompose the task into the same task but with smaller inputs. We also evaluate our approach on textual multi-step reasoning tasks: on long-context multi-hop QA task, we can more effectively teach the sub-tasks via our separate sub-tasks prompts; and on open-domain multi-hop QA, we can incorporate a symbolic information retrieval within our decomposition framework, leading to improved performance on both tasks. Datasets, Code and Prompts available at https://github.com/allenai/DecomP.
연구 동기 및 목표
- 복잡한 작업에 대한 단일 프롬프트 추론을 넘어서 소수 샷 해결 능력 향상을 동기화한다.
- 하위 문제를 해결하기 위해 서브 태스크 핸들러를 프롬프트하는 분해 프레임워크를 소개한다.
- 심볼릭 도구나 외부 시스템을 포함해 하위 태스크 핸들러의 재사용 및 교체를 가능하게 한다.
- 상징적 조작, 긴 맥락의 QA, 오픈 도메인 다중 홉 QA 전반에서 개선된 성능을 입증한다.
제안 방법
- 복잡한 질의에 대해 프로그램과 같은 서브 태스크 시퀀스를 생성하는 디컴포저 LLM을 제안한다.
- 각 하위 태스크를 전용 하위 태스크 핸들러로 구현하며, 이는 또 다른 프롬프트 생성 프로그램이나 심볼릭 함수일 수 있다.
- 디컴포저와 각 하위 태스크 핸들러를 독립적으로 학습시키기 위해 맥락 예제를 사용한다(모듈식 프롬 prompts).
- 매우 긴 입력이나 중첩된 하위 문제를 다루기 위해 재귀적 또는 계층적 분해를 허용한다.
- 검색 작업을 위한 하위 태스크 핸들러로 Elasticsearch와 같은 외부 도구를 통합한다.
- 심볼릭 작업, 긴 맥락의 QA, 오픈 도메인 다중 홉 QA에 걸친8개 데이터셋에 대해 그리디 추론으로 평가한다.
실험 결과
연구 질문
- RQ1디컴포즈드 프례핑이 표준 코트(CoT) 프롬 prompting과 비교했을 때 복잡한 작업에서 소수 샷 성능을 향상시킬 수 있는가?
- RQ2모듈식 분해가 시스템 전체를 바꾸지 않고도 하위 태스크 핸들러를 교체하거나 업그레이드 가능하게 하는가?
- RQ3재귀적이고 계층적 분해가 더 긴 입력과 더 복잡한 추론으로 일반화될 수 있는가?
- RQ4하위 태스크 핸들러로 심볼릭 혹은 검색 도구를 도입하는 것이 오픈 도메인 QA에 어떤 영향을 미치는가?
- RQ5후처리 혹은 오류 수정 하위 태스크가 전체 정확도에 어떤 영향을 미치는가?
주요 결과
- DecomP는 여러 과제에서 표준 CoT 프롬 prompting보다 우수한 성능을 보이고 더 긴 입력과 보지 않은 구성에 더 잘 일반화된다.
- 재귀적 분해는 표준 CoT를 넘는 리스트 반전 과제에 대해 길이 일반화를 가능하게 한다.
- DecomP 프레임워크 내의 검색 하위 태스크(Elasticsearch) 도입은 여러 데이터셋에서 오픈 도메인 다중 홉 QA를 향상시킨다.
- 특정 하위 태스크 핸들러로의 후처리 CoT는 산술 단어 문제에서 큰 개선을 가져오며(MultiArith에서 17점, GSM8K에서 14점 개선).
- DecomP는 모듈성을 유지한다: 하위 태스크 프롬프트는 전체 시스템을 재작업하지 않고도 개별적으로 개선되거나 교체될 수 있으며, 필요에 따라 외부 도구를 플러그인할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.