Skip to main content
QUICK REVIEW

[논문 리뷰] Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

Xuefei Ning, Zinan Lin|arXiv (Cornell University)|2023. 07. 28.
Topic Modeling인용 수 12
한 줄 요약

Skeleton-of-Thought (SoT)은 LLM들이 먼저 답변의 골격을 생성한 다음 포인트를 병렬로 확장하도록 안내하여 12개 모델에서 엔드투엔드 대기시간을 크게 줄이고 품질 향상 가능성을 얻으며, SoT-R이 SoT를 적용할 시점을 적응적으로 결정합니다.

ABSTRACT

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-ups across 12 LLMs, but it can also potentially improve the answer quality on several question categories. SoT is an initial attempt at data-centric optimization for inference efficiency, and showcases the potential of eliciting high-quality answers by explicitly planning the answer structure in language.

연구 동기 및 목표

  • 엔드투엔드 생성 지연 시간을 줄이기 위해 병렬 콘텐츠 생성을 가능하게 하는 것을 목표로 한다.
  • 모델이 먼저 골격을 개략하고 그다음 포인트를 병렬로 확장하는 데이터 중심 추론 최적화를 제안한다.
  • SoT의 속도 향상을 여러 모델에서 시연하고 답변 품질에 대한 영향을 평가한다.
  • SoT-R를 도입하여 질문 유형에 따라 SoT를 적응적으로 작동시키고 효율성과 품질의 균형을 맞춘다.
  • SoT를 언제 사용할지 결정하기 위한 실용적 라우팅 방법(프롬프트 기반 및 학습된 방법)을 탐구한다.

제안 방법

  • 답변의 간결한 골격을 출력하도록 LLM을 자극하는 골격 단계(3–10포인트, 포인트당 3–5단어).
  • 골격의 각 포인트를 골격과 포인트 인덱스를 조건으로 한 프롬프트로 병렬 확장하는 포인트 확장 단계.
  • 독립적으로 생성된 포인트 확장을 최종 answer로 집계.
  • 오픈 소스 모델의 병렬 디코딩/배치 확장 및 API 기반 모델의 병렬 API 호출을 통해 엔드투엔드 지연 감소를 실현.
  • SoT-R: 프롬프트 또는 학습된 RoBERTa 기반 분류기를 통해 주어진 질문에 SoT를 적용할지 결정하는 라우터로, 속도와 품질의 동적 균형을 맞춘다.
  • Vicuna-80과 WizardLM 데이터셋을 사용한 12개 모델(오픈소스 및 API 기반)에 대한 평가로, 지연 프로파일링 및 FastChat 및 LLMZoo 지표를 통한 품질 판단이 포함된다.

실험 결과

연구 질문

  • RQ1골격 가이드 프롬프트가 엔드투엔드 지연을 줄이기 위해 LLM에서 병렬 생성을 가능하게 하는가?
  • RQ2SoT가 다양한 질문 카테고리와 모델에 걸쳐 답변 품질을 개선하거나 유지할 수 있는가?
  • RQ3SoT를 SoT-R과 같은 적응형 라우터와 결합했을 때의 성능은 어떠한가?
  • RQ4API 기반 배포와 오픈소스 배포 간의 지연, 토큰, 비용의 트레이드오프는 무엇인가?
  • RQ5다양한 질문 카테고리가 SoT의 효과에 어떤 영향을 미치며 적응형 라우팅이 가장 큰 도움을 주는 영역은 어디인가?

주요 결과

  • SoT는 엔드투엔드 지연 감소를 크게 달성했으며, 12개 모델 중 8개에서 최대 2.39배의 속도 향상을 보고했습니다.
  • 예시에서 Claude는 22s에서 12s로, Vicuna-33B는 A100 GPU에서 43s에서 16s로 지연 감소를 보였습니다.
  • SoT는 FastChat 및 LLMZoo 평가에 따라 여러 질문 카테고리에서 답변 품질을 개선할 수 있으나, 모델과 카테고리에 따라 이득이 다릅니다.
  • SoT-R(적응형 라우팅)은 SoT 단독보다 속도 향상이 낮지만 많은 모델에서 품질 향상을 유지하고, 유리할 때만 SoT를 작동시켜 Some 시나리오에서 SoT를 능가할 수 있습니다.
  • 프롬프트 기반과 학습된 라우터 모두 효과적인 SoT 트리거링을 제공하며, WizardLM 평가에서 학습된 라우터가 인간 판단과 잘 일치합니다.
  • SoT는 독립적인 포인트로 분해될 수 있는 질문에서 가장 효과적이며, 일부 수학이나 코딩 질문과 같은 단계별 추론 작업에는 덜 효과적입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.