QUICK REVIEW

[論文レビュー] Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Yujie Zheng, Zhuo Li|arXiv (Cornell University)|Mar 11, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

EvoKernel は NPU カーネル合成をメモリベースの強化学習タスクとしてフレーム化し、価値駆動の検索で実現可能なカーネルをドラフトし、それを継続的に改善してレイテンシー利得を得る。前沿モデルの性能を11.0%から83.0%の正確さへ向上させ、中央値で3.60×のスピードアップを達成する。

ABSTRACT

Deploying Large Language Models to data-scarce programming domains poses significant challenges, particularly for kernel synthesis on emerging Domain-Specific Architectures where a "Data Wall" limits available training data. While models excel on data-rich platforms like CUDA, they suffer catastrophic performance drops on data-scarce ecosystems such as NPU programming. To overcome this cold-start barrier without expensive fine-tuning, we introduce EvoKernel, a self-evolving agentic framework that automates the lifecycle of kernel synthesis from initial drafting to continual refining. EvoKernel addresses this by formulating the synthesis process as a memory-based reinforcement learning task. Through a novel value-driven retrieval mechanism, it learns stage-specific Q-values that prioritize experiences based on their contribution to the current objective, whether bootstrapping a feasible draft or iteratively refining latency. Furthermore, by enabling cross-task memory sharing, the agent generalizes insights from simple to complex operators. By building an NPU variant of KernelBench and evaluating on it, EvoKernel improves frontier models' correctness from 11.0% to 83.0% and achieves a median speedup of 3.60x over initial drafts through iterative refinement. This demonstrates that value-guided experience accumulation allows general-purpose models to master the kernel synthesis task on niche hardware ecosystems. Our official page is available at https://evokernel.zhuo.li.

研究の動機と目的

NPUカーネル合成のデータ不足のコールドスタート問題に対処する。公開データが限られ、専門家デモンストレーションが乏しい点。
初期ドラフトから継続的な改良までを自動化するメモリベースのRLフレームワークを開発する。モデルウェイトのファインチューニングを必要としない。
ニッチなハードウェア上で、単純なオペレータから複雑なオペレータへ洞察を転送する跨タスクのメモリ共有を可能にする。

提案手法

カーネル合成を retrieved context に conditioned されたジェネレーターがサンプルする Memory-based MDP (M-MDP)として定式化する。
段階別のQ値を学習する価値駆動 Retrieval ポリシーを導入し、ドラフティング用メモリ項目の選択（Q1）と改良用メモリ項目の選択（Q2）を行う。
Seeds、Traces、Best Practices を格納する動的で自己進化するメモリ M を維持する。ウェイト更新なしで Monte-Carlo (MC) スタイルの価値反復でメモリを更新する。
二段階のパイプラインを実装する：コールドスタートドラフトで実現可能なカーネルを取得し、継続的改良で最適化トレースとプロファイラ信号を用いてレイテンシを削減する。
構造化フィードバックを提供するマルチゲート検証器を用い（ハック、コンパイル、正確さ、レイテンシ）、進行のための feasibilty gate gfeas を定義する。
オペレータクラスとバックエンド（Ascend C、CUDA）間でメモリを共有することで跨タスク転送を実証し、KernelBench、Attention Set、mHC カーネルで評価する。

実験結果

リサーチクエスチョン

RQ1データ不足のハードウェアエコシステムにおいて、専門家デモなし・ファインチューニングなしでカーネル合成をブートストラップできるか？
RQ2価値駆動検索メカニズムは、コールドスタートのカーネル合成において類似性ベースやヒューリスティック検索と比べて跨タスクの一般化と効率を向上させるか？
RQ3跨タスクのメモリ共有は、学習をどの程度加速し、難易度の高いオペレータブロックや新しいバックエンドでの性能を改善するか？
RQ4EvoKernel フレームワークは KernelBench から Attention Set および mHC カーネルへ、Ascend と CUDA のバックエンドでどれほど移行できるか？

主な発見

EvoKernel は Ascend C カーネルタスクのフロンティアモデルの正確さを11.0%から83.0%へ向上させた。
改良中のタスク内の中央値レイテンシ改善は、初期の実現可能ドラフトに対して3.60×であった。
価値駆動検索は正確さとコンパイルの点でヒューリスティック検索を上回り、特に難しいオペレータで顕著である。
跨タスクのメモリ共有は大きな利得を生み、例えば Level 2 コンパイル率が55.0%から100%へ、正確さが3.0%から76.0%へ（GPT-5.2 で）向上。
バックボーン間のメモリ転送（GPT-5.2 から弱いモデルへ）はコンパイルと正確さを大幅に改善（例：DeepSeek: 26%→80% CR; 6%→58% Acc）。
このアプローチは Attention Set および mHC カーネルへと一般化し、CUDA および Ascend バリアントで 100% コンパイルとほぼ 78–100% 正確さを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。