Skip to main content
QUICK REVIEW

[논문 리뷰] Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection

Jennifer Dodgson, Alfath Daryl Alhajir|arXiv (Cornell University)|2026. 01. 18.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

논문은 외부 보상 대신 환경 매개 생존 신호(자원 제약)에 의해 학습이 이뤄지는 개념 증명 자가 학습 아키텍처를 입증하여 지속 가능한 개방형 자기계발 및 음수 공간 학습을 가능하게 한다.

ABSTRACT

Self-training systems often degenerate due to the lack of an external criterion for judging data quality, leading to reward hacking and semantic drift. This paper provides a proof-of-concept system architecture for stable self-training under sparse external feedback and bounded memory, and empirically characterises its learning dynamics and failure modes. We introduce a self-training architecture in which learning is mediated exclusively by environmental viability, rather than by reward, objective functions, or externally defined fitness criteria. Candidate behaviours are executed under real resource constraints, and only those whose environmental effects both persist and preserve the possibility of future interaction are propagated. The environment does not provide semantic feedback, dense rewards, or task-specific supervision; selection operates solely through differential survival of behaviours as world-altering events, making proxy optimisation impossible and rendering reward-hacking evolutionarily unstable. Analysis of semantic dynamics shows that improvement arises primarily through the persistence of effective and repeatable strategies under a regime of consolidation and pruning, a paradigm we refer to as negative-space learning (NSL), and that models develop meta-learning strategies (such as deliberate experimental failure in order to elicit informative error messages) without explicit instruction. This work establishes that environment-grounded selection enables sustainable open-ended self-improvement, offering a viable path toward more robust and generalisable autonomous systems without reliance on human-curated data or complex reward shaping.

연구 동기 및 목표

  • 자기 학습에서 보상 해킹과 의미 drift를 방지하기 위한 내재적 선택 문제를 동기 부여하고 형식화한다.
  • 실제 세계의 자원 제약에 연계된 지속성을 외부적으로 근거 있는 결과 기반 선택 메커니즘을 제안한다.
  • 보존된 자원에 대한 영향을 후보 행동을 평가하는 샌드박스 환경을 보여주어 지속 가능한 자기 개선을 가능하게 한다.
  • 명시적 지시 없이도 Emergent learning dynamics와 메타 학습 전략을 포함한 학습 역학 및 실패 모드를 특징화한다.

제안 방법

  • 자원 제한 실행 맥락이 존재하는 환경을 도입하여 생존이 비휘발성 메모리 점유에 의해 결정되도록 한다.
  • 실행 가능한 코드를 생성하고 실행하며 환경에 미치는 영향을 관찰하고, 훈련을 위해 양의 합만 남긴 궤적을 보존하는 간단한 에이전트-환경 루프를 정의한다.
  • LoRA 기반 어댑터를 사용한 점진적으로 재귀적 미세조정 파이프라인으로 반복 간 학습을 연결하면서 재앙적 망각을 피한다.
  • 탐색, 전략 형성, 실행을 구분하는 모듈식 프롬프트 구조를 활용하여 해석 가능성과 재현성을 높인다.
  • 전략 다양성을 추적하고 세대를 거치며 전략을 클러스터링하여 차감적 개선을 보여주는 음수 공간 학습을 분석한다.
  • 메모리 제약 하에서 여러 훈련 체계를 비교(Miri, Terese, Katalin)하여 학습된 행동의 장기 안정성과 견고성을 연구한다.
Figure 1: Simplified process diagram.
Figure 1: Simplified process diagram.

실험 결과

연구 질문

  • RQ1환경 매개 선택이 보상 해킹을 방지하고 외부 감독 없이 지속적이고 개방형 자가 개선을 지원할 수 있는가?
  • RQ2저장 공간 같은 메모리 제약 생존 신호가 학습 역학과 장기 정책 안정성에 어떤 영향을 미치는가?
  • RQ3데이터 세트가 명시적 작업 보상 대신 생존 궤적에 의해 형성될 때 어떤 학습 역학이 나타나는가(예: 음수 공간 학습)?
  • RQ4다른 데이터 선택 체계(시간적 지역성 대 성능 기반 상위-k)가 수렴, 안정성 및 일반화에 어떤 영향을 미치는가?
  • RQ5데이터를 늘리거나 큐레이션된 데이터 세트 없이 지속적 개선이 가능한가?

주요 결과

  • 환경 매개 생존에 기반한 선택일 때 지속 가능한 자기 개선이 가능하다.
  • Miri 체계(최근 성공 궤적)는 메모리가 촉박한 조건에서 단조로운 개선을 가져다주며 무한한 데이터 증가 없이 지속적인 성능 향상을 보인다.
  • 음수 공간 학습은 차감적 메커니즘으로 나타나 전략이 잘라내고 통합되어 효율적이고 반복 가능한 행동으로 이끈다.
  • Katalin 체계(환경 영향으로 상위-k)는 호환되지 않는 과거 전략을 혼합하여 학습을 불안정하게 만들 수 있어 안정성을 위해서는 시계열 국한된 데이터가 필요함을 보여준다.
  • 세 가지 계통 모두 대리 지표에서 개선을 달성하고(예: 공간 해방, 복합 개선 점수) 데이터 효율성, 안정성 및 발산 위험에서 서로 다른 트레이드오프를 보인다.
  • 인간 평가 코딩 성능은 여전히 경쟁력이 있어 효율성 향상이 일반 코딩 능력의 대가가 아님을 시사한다.
Figure 2: Chaining LoRAs to achieve incremental fine tuning without catastrophic forgetting
Figure 2: Chaining LoRAs to achieve incremental fine tuning without catastrophic forgetting

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.