[論文レビュー] A Survey on Self-Evolution of Large Language Models
このサーベイは自己進化する LLM の概念的枠組みと分類系を提示し、経験の獲得、洗練、更新、評価のサイクルを詳述し、進化する能力・目的・方法を調査する。
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs. Our corresponding GitHub repository is available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLM
研究の動機と目的
- LLMにおける自己進化の概念的枠組みを定義し、経験獲得、洗練、更新、評価の反復サイクルを説明する。
- LLMおよびLLMベースのエージェントの進化能力と進化方向を分類する。
- タスク進化と解法進化にわたる既存の手法を調査し、現在の技術とその適用を整理する。
- 自己進化システムの設計選択に関する分類法と洞察を提供し、課題と今後の方向性を概説する。
提案手法
- 経験獲得、経験の洗練、更新、評価の四段階の反復サイクルを提案する。
- 進化能力と進化方向を組み合わせた進化目的の分類法を構築する。
- Knowledge-Based、Knowledge-Free、Selective のアプローチにタスク進化を分類し、外部知識統合、自己生成タスク、またはタスクプールからの選択を分析する。
- 根拠に基づく、対話型、自己対戦、グラウンデッド解法を含む、LLMとLLMベースのエージェントにわたる技術を要約する。
- 詳細な表(Table 1)を提示し、方法を進化段階と属性に結び付ける(数値結果を含まない)。
実験結果
リサーチクエスチョン
- RQ1自己進化のための包括的な概念的枠組みは何であり、それをどのように運用可能にすることができるか。
- RQ2現在の自己進化の取り組みを特徴づける進化能力と方向性は何か。
- RQ3タスク進化と解法進化に使用される主な手法は何であり、それらはどのように分類されるか。
- RQ4LLMの自己進化フレームワークの主な課題と今後の方向性は何か。
主な発見
- 自己進化の4段階サイクル(経験獲得、洗練、更新、評価)が自律的な改善を導く。
- 進化能力と進化方向を組み合わせた分類法が具体的な目標を定義する。
- 知識ベース、知識フリー、または選択的戦略を組み合わせることで外部知識の統合、自己生成タスク、またはタスクプールからのタスク選択が可能になる。
- 正のアプローチ(根拠に基づく、対話型、自己対戦、グラウンデッド)と負のアプローチ(偏りのある出力を収集して好み合わせを行う)を含む解法進化。
- 自己命令、自己デバッグ、自己報酬、自己整合、エージェントの具象化計画など、LLMとLLMベースのエージェントでの多様な手法を強調する広範な調査。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。