[논문 리뷰] ECCO: Evidence-Driven Causal Reasoning for Compiler Optimization
ECCO는 LLM Strategist와 GA Tactician을 결합한 증거 기반 인과 추론 프레임워크를 도입하여 LLVM -O3의 사이클을 크게 줄이고 일곱 벤치마크에서 최적화한다.
Compiler auto-tuning faces a dichotomy between traditional black-box search methods, which lack semantic guidance, and recent Large Language Model (LLM) approaches, which often suffer from superficial pattern matching and causal opacity. In this paper, we introduce ECCO, a framework that bridges interpretable reasoning with combinatorial search. We first propose a reverse engineering methodology to construct a Chain-of-Thought dataset, explicitly mapping static code features to verifiable performance evidence. This enables the model to learn the causal logic governing optimization decisions rather than merely imitating sequences. Leveraging this interpretable prior, we design a collaborative inference mechanism where the LLM functions as a strategist, defining optimization intents that dynamically guide the mutation operations of a genetic algorithm. Experimental results on seven datasets demonstrate that ECCO significantly outperforms the LLVM opt -O3 baseline, achieving an average 24.44% reduction in cycles.
연구 동기 및 목표
- 해석 가능하고 인과에 기반한 컴파일러 자동 튜닝의 필요성을 블랙박스 검색과 표면적 LLM 프롬프트를 넘어 제시한다.
- 최적화 궤적에서 인과 관계 데이터를 구축하고 합리성 증류를 통해 모델을 학습시키는 증거 기반 파이프라인을 제안한다.
- LLM이 최적화 의도를 정의하고 유전 알고리즘을 안내하는 협력적 추론 프레임워크를 설계한다.
- 이 접근법이 일곱 벤치마크에서 강력한 기준들과 비교할 때 사이클 감소를 초과 달성함을 입증한다.
제안 방법
- 반복적 가지치기(Algorithm 1)를 사용하여 고성능 시퀀스를 핵심 패스로 역설계해 인과 데이터셋을 구축한다.
- 각 최적화 단계 이후 구조적 특징 및 성능 증거를 추출하고 패스 시너지를 식별한다.
- 정형 피처에서의 결과까지의 인과 관계를 학습하도록 모의 예측 추론을 증거에서 증거를 모델 학습 데이터로 증류하여 모델이 정적 특징에서 결과까지의 인과 관계를 학습하도록 한다.
- 2단계 정책 최적화: 감독 미세조정(SFT) 후 GRPO를 이용한 RL로 형식과 성능 보상을 균형 있게 다룬다.
- 협력적 Strategist–Tactician 추론: LLM이 고수준 최적화 의도(전략가)를 제시하고 GA가 정밀한 변이 기반 탐색(전술가)을 수행한다.
- 훈련 데이터에서 패스 효율성의 글로벌 사전(Star Passes)을 계산하고 의도 안내 확률적 변이(식 4)를 사용해 GA 탐색에 편향을 주되 균등성(ergodicity)을 보존한다.

실험 결과
연구 질문
- RQ1ECCO가 기존 자동 튜닝 휴리스틱 및 LLM 직접 프롬프팅과 비교해 어떻게 성능을 나타내는가?
- RQ2증거 기반 훈련과 모델 스케일링이 최적화 효율성에 어떤 기여를 하는가?
- RQ3협력적 Strategist–Tactician 프레임워크가 순수 생성형 LLM 접근법보다 성능과 해석가능성 면에서 개선되는가?
- RQ4ECCO의 최적화 합리성이 실제 컴파일러 동작에 얼마나 충실한가?
주요 결과
| 방법 | blas | cbench | chstone | mibench | npb | opencv | tensorflow | 평균 |
|---|---|---|---|---|---|---|---|---|
| TPE | 13.45 | 28.60 | 26.07 | 20.70 | 27.85 | 13.40 | 9.07 | 19.88 |
| RIO | 16.55 | 30.56 | 27.07 | 22.74 | 31.59 | 15.44 | 9.88 | 21.98 |
| OpenTuner | 15.72 | 31.68 | 27.03 | 22.93 | 32.41 | 15.50 | 9.71 | 22.14 |
| GA | 16.48 | 30.30 | 27.07 | 22.80 | 32.77 | 16.00 | 9.58 | 22.14 |
| PDCAT | 17.19 | 31.75 | 27.84 | 23.44 | 32.78 | 16.19 | 10.33 | 22.79 |
| CompTuner | 17.26 | 31.57 | 27.87 | 23.03 | 31.43 | 18.15 | 10.83 | 22.88 |
| GRACE | 13.72 | 34.08 | 32.95 | 24.69 | 29.31 | 14.98 | 12.25 | 23.14 |
| CFAST | 16.44 | 31.08 | 28.87 | 24.98 | 34.65 | 17.36 | 12.50 | 23.70 |
| Direct LLM Prompting(Best-of-32) | 8.46 | 27.11 | 27.88 | 20.41 | 15.54 | 9.93 | 4.39 | 16.25 |
| Kimi-K2 | 10.79 | 24.90 | 28.85 | 20.04 | 18.35 | 10.04 | 3.31 | 16.61 |
| DeepSeek-V3.2 | 6.41 | 28.16 | 29.70 | 20.04 | 16.68 | 8.42 | 3.01 | 16.06 |
| GPT5-chat | 10.62 | 26.30 | 27.61 | 19.24 | 18.02 | 10.63 | 3.51 | 16.56 |
| ECCO (Best-of-32) | 12.99 | 35.19 | 35.50 | 27.12 | 32.97 | 15.58 | 11.72 | 24.44 |
- ECCO는 일곱 벤치마크에서 LLVM -O3 대비 평균 24.44% 사이클 감소를 달성한다.
- ECCO는 전통적 탐색 휴리스틱 및 직접 LLM 프롬프팅을 능가하며 cbench, chstone, mibench에서 눈에 띄는 이점을 보인다.
- 증거 기반 훈련(CoT 및 포렌식 특징)이 필수적이며 증거 또는 CoT를 제거하면 성능이 저하된다.
- 독립적 LLM 정책은 Best-of-32 샘플링으로 수렴하지만 전체 Strategist–Tactician 시스템에 비해 평균 성능에서 약 5 포인트 정도 뒤처진다.
- 해석 가능성 감사에서 ECCO의 합리성의 충실도가 높게 나타나며 판정자 간 합의 평균은 약 91%이다.
- 모델 크기를 증가시켜도 증거 기반 학습 없이 수익은 감소하며, 최적의 지점은 협업 시 3B–7B 정도에서 나타난다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.