QUICK REVIEW

[논문 리뷰] Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Yujie Zheng, Zhuo Li|arXiv (Cornell University)|2026. 03. 11.

Parallel Computing and Optimization Techniques인용 수 0

한 줄 요약

EvoKernel은 NPU 커널 합성을 메모리 기반 강화학습 과제로 프레이밍하고, 값 기반 검색을 사용해 실행 가능한 커널을 초안하고 지속적으로 개선하여 지연(latency) 이득을 얻으며 프런티어 모델의 성능을 11.0%에서 83.0% 정확도로 향상시키고 중앙값 3.60배 속도 향상을 달성합니다.

ABSTRACT

Deploying Large Language Models to data-scarce programming domains poses significant challenges, particularly for kernel synthesis on emerging Domain-Specific Architectures where a "Data Wall" limits available training data. While models excel on data-rich platforms like CUDA, they suffer catastrophic performance drops on data-scarce ecosystems such as NPU programming. To overcome this cold-start barrier without expensive fine-tuning, we introduce EvoKernel, a self-evolving agentic framework that automates the lifecycle of kernel synthesis from initial drafting to continual refining. EvoKernel addresses this by formulating the synthesis process as a memory-based reinforcement learning task. Through a novel value-driven retrieval mechanism, it learns stage-specific Q-values that prioritize experiences based on their contribution to the current objective, whether bootstrapping a feasible draft or iteratively refining latency. Furthermore, by enabling cross-task memory sharing, the agent generalizes insights from simple to complex operators. By building an NPU variant of KernelBench and evaluating on it, EvoKernel improves frontier models' correctness from 11.0% to 83.0% and achieves a median speedup of 3.60x over initial drafts through iterative refinement. This demonstrates that value-guided experience accumulation allows general-purpose models to master the kernel synthesis task on niche hardware ecosystems. Our official page is available at https://evokernel.zhuo.li.

연구 동기 및 목표

공개 데이터가 제한되고 전문가 시연이 드문 데이터-제한 냉시작 문제를 NPU 커널 합성에서 해결합니다.
초기 초안 작성에서부터 모델 가중치 미세조정 없이 지속적 개선까지 자동화하는 메모리 기반 RL 프레임워크를 개발합니다.
일반-작업 간 메모리 공유를 가능하게 하여 간단한 연산에서 복잡한 연산으로의 통찰을 특수 하드웨어에서 이전합니다.

제안 방법

커널 합성을 검색 기반 MDP(M-MDP)로 구성하고, 검색된 컨텍스트에 조건부로 커널을 샘플링하는 제너레이터를 도입합니다.
단계별 Q-값을 학습하는 값 기반 검색 정책을 도입하여 초안을 위한 메모리 아이템 선택(Q1)과 개선(Q2)을 수행합니다.
SEEDS, 트레이스, 베스트 프랙티스 등을 저장하는 동적 자가 진화 메모리 M을 유지하고, 가중치 업데이트 없이 몬테카를로(MC) 스타일의 가치 이터레이션으로 메모리를 업데이트합니다.
두 단계 파이프라인을 구현합니다: 냉시작 초안 작성으로 실행 가능한 커널을 얻고, 이후 최적화 트레이스 및 프로파일러 신호를 활용해 지연을 줄이는 지속적 개선을 수행합니다.
구조화된 피드백(해킹, 컴파일, 정확성, 지연)을 제공하는 다중 게이트 검증기와 진행을 위한 실행 가능성 게이트 gfeas를 정의합니다.
연산자 클래스와 백엔드(Ascend C, CUDA) 간 메모리를 공유하여 교차 작업 전이를 시연하고 KernelBench, Attention Set, mHC 커널에서 평가합니다.

실험 결과

연구 질문

RQ1데이터-제한 하드웨어 생태계에서 전문가 시연이나 미세조정 없이 메모리 기반 RL 에이전트가 커널 합성을 부트스트랩할 수 있는가?
RQ2값 기반 검색 메커니즘이 냉시작 커널 합성에서 유사도 기반 또는 휴리스틱 검색에 비해 교차 작업 일반화 및 효율성을 향상시키는가?
RQ3교차 작업 메모리 공유가 학습 속도를 얼마나 가속화하고 더 어려운 연산자 블록 및 신규 백엔드에서 성능을 개선하는가?
RQ4KernelBench에서 Attention Set 및 mHC 커널로 EvoKernel 프레임워크가 Ascend 및 CUDA 백엔드에서 잘 이전되는가?

주요 결과

EvoKernel은 Ascend C 커널 작업의 프런티어 모델 정확도를 11.0%에서 83.0%로 끌어올립니다.
개선 도중 중간 내-작업 지연의 중앙값은 초기 실행 가능 초안 대비 3.60배 향상을 달성합니다.
값 기반 검색은 정확성과 컴파일 측면에서 휴리스틱 검색보다 우수하며, 특히 더 어려운 연산자에서 두드러집니다.
교차 작업 메모리 공유로 상당한 이득이 발생합니다. 예를 들어 레벨 2 컴파일 비율이 55.0%에서 100%로, 정확도는 3.0%에서 76.0%로 상승하며 GPT-5.2에서 확인됩니다.
백본 간 메모리 전송(GPT-5.2에서 약한 모델로)으로 컴파일 및 정확도가 크게 향상됩니다(예: DeepSeek: 26%→80% CR; 6%→58% Acc).
이 접근법은 Attention Set 및 mHC 커널에 일반화되며, CUDA 및 Ascend 계열에서 100% 컴파일 및 대략 78–100% 정확도에 근접한 성과를 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.