Skip to main content
QUICK REVIEW

[論文レビュー] AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Terry Chen, Zhifan Ye|arXiv (Cornell University)|Mar 25, 2026
Evolutionary Algorithms and Applications被引用数 0
ひとこと要約

AVOは固定突然変異を自律的なコーディングエージェントに置換し、カーネル最適化を計画・実装・検証することで、NVIDIA Blackwell GPU上で最先端の注意性能を達成し、グループ化クエリ注意への利得を転送します。

ABSTRACT

Agentic Variation Operators (AVO) are a new family of evolutionary variation operators that replace the fixed mutation, crossover, and hand-designed heuristics of classical evolutionary search with autonomous coding agents. Rather than confining a language model to candidate generation within a prescribed pipeline, AVO instantiates variation as a self-directed agent loop that can consult the current lineage, a domain-specific knowledge base, and execution feedback to propose, repair, critique, and verify implementation edits. We evaluate AVO on attention, among the most aggressively optimized kernel targets in AI, on NVIDIA Blackwell (B200) GPUs. Over 7 days of continuous autonomous evolution on multi-head attention, AVO discovers kernels that outperform cuDNN by up to 3.5% and FlashAttention-4 by up to 10.5% across the evaluated configurations. The discovered optimizations transfer readily to grouped-query attention, requiring only 30 minutes of additional autonomous adaptation and yielding gains of up to 7.0% over cuDNN and 9.3% over FlashAttention-4. Together, these results show that agentic variation operators move beyond prior LLM-in-the-loop evolutionary pipelines by elevating the agent from candidate generator to variation operator, and can discover performance-critical micro-architectural optimizations that produce kernels surpassing state-of-the-art expert-engineered attention implementations on today's most advanced GPU hardware.

研究の動機と目的

  • 高度にチューニングされたカーネルを固定的変異パイプラインを超えて自律的に最適化する動機づけ。
  • 自己指向のエージェントがカーネル編集を計画・実装・検証できるAgentic Variation Operators (AVO)の導入。
  • NVIDIA Blackwell GPU上の多頭注意 (MHA) カーネルでAVOを評価し、cuDNNとFlashAttention-4 (FA4)と比較。
  • MHAからGQAへの発見最適化の転移を実証。

提案手法

  • 計画、ツール使用、永続メモリを組み合わせた自律エージェントループとしてVaryを正式化。
  • ドメイン固有の知識ベースと正確性とスループットの二重目的スコアリング関数を提供。
  • 参照を照会し、変更をテストし、戦略を修正できる単一の自律的変異ステップとしてAVOを実装。
  • 停滞から脱出する自己監督機構を備えた連続的かつ複数日間にわたる進化を実行。
  • 複数のシーケンス長と構成で前向きパスのスループットをcuDNNとFA4と比較してベンチマーク。

実験結果

リサーチクエスチョン

  • RQ1エージェントー変動演算子は、現代のGPU上で手作業で作成された基準(cuDNN、FA4)を上回るカーネル最適化を自律的に発見できるか?
  • RQ2MHAに対して発見された最適化は最小限の自律適応でGQAへ転移できるか?
  • RQ3自律エージェントが注意カーネルに収束させるマイクロアーキテクチャ的戦略の種類(例:スケジューリング、レジスタ割り当て)は何か?
  • RQ4継続的な自律進化は固定パイプラインと比較して持続的な性能向上を生み出すか?

主な発見

OptimizationVersionsNon-causalCausal
ブランチレス蓄積器リスケーリングv19 → v20+8.1%+1.6%
Correction/MMAパイプライン重複v29 → v30+1.1%+0.4%
ワープグループ間のレジスタ再バランスv32 → v33+2.1%~0%
  • AVOはBF16で最大1668 TFLOPSを達成するMHAカーネルを生み出し、cuDNNを最大3.5%、FA4を最大10.5%上回った。
  • 離散的な進化ステップは、アーキテクチャの転換点で大きな利得をもたらし、後半には小さく累積的な改善を生んだ。
  • 進化したMHA最適化をGQAへ転移させるには約30分程度の自律適応で済み、cuDNNを最大7.0%、FA4を最大9.3%上回る利得を得た。
  • エージェント的最適化はレジスタ割り当て、命令スケジューリング、ワークロード分散に及び、表面的な編集ではなくハードウェアレベルの推論を示した。
  • 7日間・40コミットの進化は、意味のあるジャンプと後半の報酬低下を伴いながら、持続的な進歩を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。