[논문 리뷰] Towards Optimizing with Large Language Models
본 논문은 반복 프롬프트를 통해 다중 최적화 작업에서 대형 언어 모델(LLMs)의 최적화 능력을 평가하고, 세 가지 평가 지표를 도입하며 성능에 미치는 데이터 규모 효과를 검토한다.
In this work, we conduct an assessment of the optimization capabilities of LLMs across various tasks and data sizes. Each of these tasks corresponds to unique optimization domains, and LLMs are required to execute these tasks with interactive prompting. That is, in each optimization step, the LLM generates new solutions from the past generated solutions with their values, and then the new solutions are evaluated and considered in the next optimization step. Additionally, we introduce three distinct metrics for a comprehensive assessment of task performance from various perspectives. These metrics offer the advantage of being applicable for evaluating LLM performance across a broad spectrum of optimization tasks and are less sensitive to variations in test samples. By applying these metrics, we observe that LLMs exhibit strong optimization capabilities when dealing with small-sized samples. However, their performance is significantly influenced by factors like data size and values, underscoring the importance of further research in the domain of optimization tasks for LLMs.
연구 동기 및 목표
- 다양한 작업 및 데이터 크기에 걸쳐 인터랙티브 최적화를 수행하는 LLM의 능력을 평가한다.
- LLM 기반 최적화의 진행, 정렬, 안정성을 정량화하는 지표를 도입한다.
- 데이터 크기 및 작업 유형과 같은 요인이 LLM 최적화 성능에 미치는 영향을 식별한다.
제안 방법
- LLMs의 사례 연구로 네 가지 최적화 알고리즘(경사하강법, 힐 클라이밍, 그리드 탐색, 블랙 박스 최적화)을 사용한다.
- 연쇄적 사고(Chain of Thought) 추론이 포함된 반복 프롬프팅 프레임워크를 적용하여 각 반복마다 새로운 해를 생성하고 평가한다.
- 최적화 진행 상황, 지상 진실과의 정렬, 해의 안정성을 평가하기 위해 세 가지 지표(Goal, Policy, Uncertainty)를 정의하고 계산한다.
- [0,10]^d의 합성 데이터셋을 다양한 차원에서 생성하여 데이터 크기에 대한 민감도를 테스트한다.
- 다섯 가지 데이터셋 크기에 걸쳐 온도 0.8의 GPT-turbo-3.5(0613)를 사용하고 각 반복마다 열 번의 반복을 포함하도록 한다.

실험 결과
연구 질문
- RQ1다양한 최적화 패러다임에서 인터랙티브하고 반복 프롬프팅 설정으로 LLM이 최적화 도구로 작동할 수 있는가?
- RQ2데이터 크기와 작업 유형이 LLM의 최적화 성능, 안정성, 그리고 지상 진실 알고리즘과의 정렬에 어떤 영향을 미치는가?
- RQ3제안된 Goal, Policy, Uncertainty 지표가 작업 및 데이터 크기에 걸쳐 최적화 성능을 견고하게 포착하는가?
- RQ4경사 기반 및 그리드 탐색 작업에서 LLM이 지상-truth 성능에 얼마나 근접하거나 이를 능가하는가, 그리고 어디에서 어려움을 겪는가(예: 힐 클라이밍 같은 메타 휴리스틱)?
주요 결과
- LLMs는 작업 전반에서 특히 작은 데이터 샘플일 때 강력한 최적화 능력을 보인다.
- 경사하강법이 가장 강력한 성능을 보이며, 일부 데이터 크기 설정에서 지상 진실을 능가하기도 한다.
- 그리드 탐색은 큰 탐색 공간에도 불구하고 강한 성능을 보이고, 반면 힐 클라이밍은 상당한 도전을 제시한다.
- 작은 데이터 샘플에서의 블랙 박스 최적화는 LLM의 고유한 최적화 능력을 시사하지만, 데이터 크기가 커지면 성능이 감소한다.
- 불확실성은 일반적으로 더 작은 데이터 크기에서 더 높고, 데이터 크기가 커질수록 감소하여 더 많은 데이터일 때 안정성이 향상된다.
- 자체 일관성 프롬pting은 일부 모델(GPT-4 등)의 안정성을 개선할 수 있지만, 다른 모델(GPT-turbo-3.5 등)에서는 그렇지 않다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.