[논문 리뷰] What's the Magic Word? A Control Theory of LLM Prompting
이 논문은 LLM 프롬프트를 이산 확률 제어 문제로 형식화하고 self-attention으로부터 도달 가능한 출력에 대한 상한을 증명하며 Falcon-7b, Falcon-40b, Llama-7b 전반에서 프롬프트 길이 의존적 제어 가능성을 실증적으로 보여준다. 짧은 프롬프트는 출력에 큰 영향을 미칠 수 있으며, 가능성이 낮은 토큰을 가장 가능성이 높은 토큰으로 만들 수 있다.
Prompt engineering is crucial for deploying LLMs but is poorly understood mathematically. We formalize LLM systems as a class of discrete stochastic dynamical systems to explore prompt engineering through the lens of control theory. We offer a mathematical analysis of the limitations on the controllability of self-attention as a function of the singular values of the parameter matrices. We present complementary empirical results on the controllability of a panel of LLMs, including Falcon-7b, Llama-7b, and Falcon-40b. Given initial state $\mathbf x_0$ from Wikitext and prompts of length $k \leq 10$ tokens, we find that the "correct" next token is reachable at least 97% of the time, and that the top 75 most likely next tokens are reachable at least 85% of the time. Intriguingly, short prompt sequences can dramatically alter the likelihood of specific outputs, even making the least likely tokens become the most likely ones. This control-theoretic analysis of LLMs demonstrates the significant and poorly understood role of input sequences in steering output probabilities, offering a foundational perspective for enhancing language model system capabilities.
연구 동기 및 목표
- LLM에서 프롬프트 엔지니어링을 제어 가능성 문제로 제고한다.
- 입력(프롬프트)과 상태(토큰 시퀀스)를 갖는 제어 시스템으로 LLM을 형식적으로 정의한다.
- self-attention에 대한 도달 가능한 출력 집합의 해석적 경계를 도출한다.
- 짧은 프롬프트와 Wikitext에서 파생된 상태를 사용하여 모델 간 제어 가능성을 경험적으로 평가한다.
제안 방법
- 제어 입력과 읽기 매핑을 갖는 자기회귀 시스템으로 LLM을 정의한다(정의 1–3).
- Wq와 Wk의 특이값을 이용해 self-attention의 도달 가능한 출력 집합에 대한 경계를 도출한다(정리 1, 식 5–7).
- 출력을 조종하는 프롬프트를 찾기 위해 k-짧은 프롬프트 최적화(탐욕적 역생성 및 탐욕적 좌표 기울기)를 사용한다(섹션 5.1).
- Wikitext에서 얻은 x0와 모델 출력 y를 사용하는 데이터셋에서 Falcon-7b, Falcon-40b, Llama-7b 전반에 걸쳐 k-ε 제어 가능성을 경험적으로 측정한다(섹션 5.2).
- Ground-truth 다음 토큰 및 상위 75개 가능성이 높은 출력에 대한 도달 가능성을 평가한다(그림 1).

실험 결과
연구 질문
- RQ1주어진 상태에서 k-토큰 제약 하에 다음 토큰 출력이 짧은 프롬프트로 도달 가능한가?
- RQ2self-attention이 도달 가능한 출력 집합을 어떻게 제약하며, 가중치 행렬의 특이값이 제어 가능성에 어떤 영향을 미치는가?
- RQ3다양한 LLM에서 ground-truth 및 고확률 출력에 대한 경험적 제어 가능성의 정도는 어느 정도인가?
- RQ4짧은 프롬프트로 k 토큰 이내에서 낮은 가능성의 토큰에서 높은 가능성의 토큰으로의 편향이 가능한가?
- RQ5프롬프트 길이와 모델 규모에 따라 제어 가능성은 어떻게 달라지는가?
주요 결과
- x0에 대한 올바른 다음 Wikitext 토큰은 k ≤ 10 토큰의 프롬프트로 97% 이상 도달 가능하다.
- 상위 75개로 가장 가능성이 높은 다음 토큰들은 k ≤ 10 토큰의 프롬프트로 최소 85% 이상 도달 가능하다.
- 짧은 프롬프트는 k ≤ 4 프롬프트 이내에서 가능성이 가장 낮은 토큰을 가장 가능성이 높은 토큰으로 만들 수 있다.
- ground-truth Wikitext 목표에 대해 Falcon-7b, Falcon-40b, Llama-7b 전반에서 도달 가능성이 보인다.
- 입력 시퀀스의 비가시적 역할이 출력 확률을 이전 가능도 이상으로 좌우하는 데 기여한다는 비트가 있다.
- 연구된 영역에서 프롬프트 길이 k와 제어 가능성 분수 ε 사이에 로그-선형 관계가 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.