Skip to main content
QUICK REVIEW

[論文レビュー] Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection

Jennifer Dodgson, Alfath Daryl Alhajir|arXiv (Cornell University)|Jan 18, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

論文は、外部報酬ではなく環境を介した生存信号(資源制約)によって学習を推進する自己訓練アーキテクチャの概念実証を証明し、持続可能なオープンエンドの自己改善とネガティブスペース学習を可能にする。

ABSTRACT

Self-training systems often degenerate due to the lack of an external criterion for judging data quality, leading to reward hacking and semantic drift. This paper provides a proof-of-concept system architecture for stable self-training under sparse external feedback and bounded memory, and empirically characterises its learning dynamics and failure modes. We introduce a self-training architecture in which learning is mediated exclusively by environmental viability, rather than by reward, objective functions, or externally defined fitness criteria. Candidate behaviours are executed under real resource constraints, and only those whose environmental effects both persist and preserve the possibility of future interaction are propagated. The environment does not provide semantic feedback, dense rewards, or task-specific supervision; selection operates solely through differential survival of behaviours as world-altering events, making proxy optimisation impossible and rendering reward-hacking evolutionarily unstable. Analysis of semantic dynamics shows that improvement arises primarily through the persistence of effective and repeatable strategies under a regime of consolidation and pruning, a paradigm we refer to as negative-space learning (NSL), and that models develop meta-learning strategies (such as deliberate experimental failure in order to elicit informative error messages) without explicit instruction. This work establishes that environment-grounded selection enables sustainable open-ended self-improvement, offering a viable path toward more robust and generalisable autonomous systems without reliance on human-curated data or complex reward shaping.

研究の動機と目的

  • 自己訓練における内因的選択の問題を動機づけ、正式化して報酬ハックとセマンティックドリフトを回避する。
  • 持続的な現実世界の資源制約に結びつく継続性を外部に基づく、結果ベースの選択機構を提案する。
  • 候補行動が保存された資源に与える影響を評価するサンドボックス環境を示し、持続可能な自己改善を可能にする。
  • 明示的指示なしに生じる学習ダイナミクスと失敗モードを特徴づけ、ネガティブスペース学習やメタ学習戦略を含む。

提案手法

  • 資源制限付き実行コンテキストを持つ環境を導入し、生存を揮発性でないメモリ占有により決定する。
  • 実行可能なコードを生成→実行→環境影響を観察→トレーニング用に正の総和を持つ軌道のみを保持する単純なエージェント–環境ループを定義する。
  • LoRAベースのアダプターを用いる段階的に再帰的なファインチューニングパイプラインで、忘却崩壊を回避しつつ学習を複数回 iteratively連鎖させる。
  • 探査、戦略形成、実行を分離するモジュール型プロンプト構造を採用し、解釈性と再現性を向上させる。
  • 世代を追う戦略多様性と戦略のクラスタリングを追跡してネガティブスペース学習を分析し、減算的改善を示す。
  • 記憶制約の下で複数のトレーニングレジーム(三つのライン:Miri、Terese、Katalin)を比較し、学習行動の長期的安定性と頑健性を研究する。
Figure 1: Simplified process diagram.
Figure 1: Simplified process diagram.

実験結果

リサーチクエスチョン

  • RQ1環境媒介による選択は報酬ハックを防ぎ、外部監督なしで持続的かつオープンエンドな自己改善を支えるか?
  • RQ2記憶制約付き生存(ストレージ空間)を選択信号とすると、学習ダイナミクスと長期的なポリシー安定性はどうなるか?
  • RQ3データセットが明示的なタスク報酬ではなく生存軌道によって形成される場合、どのような学習ダイナミクス(ネガティブスペース学習など)が生まれるか?
  • RQ4データ選択レジームの違い(時間的局所性 vs パフォーマンスベースのトップK)が収束性、安定性、一般化にどう影響するか?
  • RQ5データを増やさず、厳選されたデータセットを作らず継続的な改善を達成できるか?

主な発見

ModelPass@1Pass@4
Base Qwen 2.5 7B Instruct77.59185.366
Terese v278.81184.756
Terese v1375.61081.707
Miri v277.74482.927
Miri v1374.08582.317
Katalin v276.37282.927
Katalin v1374.23879.878
  • 環境を介した生存に基づく選択でのみ持続的な自己改善が可能である。
  • Miriレジーム(直近の成功軌道)は、厳しい記憶条件下で単調な改善を生み、データの過剰な成長なしに継続的な性能向上を示す。
  • ネガティブスペース学習は、戦略を剪定・統合する減算的メカニズムとして現れ、効率的で再現性のある行動を生み出す。
  • Katalinレジーム(環境影響によるトップK)は、過去の互換性のない戦略を混合して学習を不安定化させる可能性があるため、安定性には時間的に局所化したデータの整合性が必要である。
  • 三つの系統はいずれも代理指標(空間の解放量、複合改善スコアなど)で改善を達成し、データ効率性、安定性、発散リスクのトレードオフが異なる。
  • ヒューマン評価のコーディング性能も競争力を維持しており、効率性の向上が一般的なコーディング能力の低下を伴わないことを示唆する。
Figure 2: Chaining LoRAs to achieve incremental fine tuning without catastrophic forgetting
Figure 2: Chaining LoRAs to achieve incremental fine tuning without catastrophic forgetting

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。