QUICK REVIEW

[論文レビュー] Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

Xuefei Ning, Zinan Lin|arXiv (Cornell University)|Jul 28, 2023

Topic Modeling被引用数 12

ひとこと要約

Skeleton-of-Thought（SoT）はLLMsに最初に回答のスケルトンを生成させ、次にポイントを並行して展開させることで、12モデルにわたる大幅なエンドツーエンドのレイテンシ削減と潜在的な品質向上を達成し、SoT-Rが適用すべき時を適応的に判断します。

ABSTRACT

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-ups across 12 LLMs, but it can also potentially improve the answer quality on several question categories. SoT is an initial attempt at data-centric optimization for inference efficiency, and showcases the potential of eliciting high-quality answers by explicitly planning the answer structure in language.

研究の動機と目的

並列コンテンツ生成を可能にすることで、LLMsのエンドツーエンド生成レイテンシを低減する動機づけ。
モデルがまずスケルトンを概説し、次にポイントを並列に展開するデータ中心の推論最適化を提案する。
複数のモデルにおけるSoTの速度向上を実証し、回答品質への影響を評価する。
効率と品質のバランスを取るため、質問タイプに基づいてSoTを適応的に発動させるSoT-Rを導入する。
SoTをいつ使用すべきかを決定する現実的なルーティング手法（プロンプトベースおよび訓練済み）を探る。

提案手法

回答の簡潔なスケルトンを出力させるスケルトン段階（3–10ポイント、各ポイント3–5語）をLLMに促す。
各スケルトンポイントをスケルトンとポイントインデックスに条件付けられたプロンプトを用いて並列に展開するポイント展開段階。
独立して生成された各ポイント展開を最終回答に統合する。
オープンソースモデルの並列デコード/バッチ展開と、APIベースモデルの並列APIコールによりエンドツーエンドのレイテンシ削減を実現する。
SoT-R：特定の質問に対してSoTを適用するかどうかを、プロンプティングまたは訓練済みRoBERTaベースの分類器によって決定し、速度と品質を動的にバランスさせるルーター。
評価はVicuna-80とWizardLMデータセットを用い12モデル（オープンソースおよびAPIベース）で行い、レイテンシプロファイリングとFastChatおよびLLMZoo指標による品質判断を含む。

実験結果

リサーチクエスチョン

RQ1スケルトン誘導プロンプトが並列生成を可能にし、LLMsのエンドツーエンドのレイテンシを削減しますか？
RQ2SoTは多様な質問カテゴリとモデルにおいて回答品質を改善または維持できますか？
RQ3SoT-R（SoTを適用すべき時を決定する適応ルータ）と組み合わせた場合、SoTはどのように機能しますか？
RQ4APIベースとオープンソース展開のレイテンシ、トークン、コストのトレードオフはどうなりますか？
RQ5異なる質問カテゴリはSoTの効果にどのように影響し、適応ルーティングが最も役立つのはどこですか？

主な発見

SoTは大幅なエンドツーエンドのレイテンシ削減を達成し、報告された速度向上は12モデル中8モデルで最大2.39xに達する。
例としてClaudeで22sから12s、Vicuna-33Bで43sから16sと、A100 GPUでのレイテンシ削減を示す。
SoTは複数の質問カテゴリで回答品質の向上にも寄与するが、モデルとカテゴリによって利得は異なる。
SoT-R（適応ルーティング）は単独のSoTよりも速度向上は小さいが、多くのモデルで品質向上を維持し、利益がある場合のみSoTを発動させることで、特定の状況でSoTを上回ることもある。
プロンプトベースと訓練済みルーターのいずれもSoT発動を効果的に提供し、WizardLM評価では訓練済みルーターが人間の判断とよく一致する。
SoTは独立したポイントに分解できる質問で最も効果を発揮し、数学やコーディングのような段階的推論タスクにはあまり効果的でない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。