QUICK REVIEW

[논문 리뷰] Recursive Concept Evolution for Compositional Reasoning in Large Language Models

Sarim Chaudhry|arXiv (Cornell University)|2026. 02. 17.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

이 논문은 Recursive Concept Evolution (RCE)이라는 프레임워크를 소개합니다. 사전 학습된 언어 모델이 추론 시 동적으로 저랭크 컨셉 서브스페이스를 생성, 평가, 병합하여 합성적 추론을 향상시키도록 하는 RCE가 ARC-AGI-2, GPQA, MATH, BBH, HLE에서 평가되었습니다.

ABSTRACT

Large language models achieve strong performance on many complex reasoning tasks, yet their accuracy degrades sharply on benchmarks that require compositional reasoning, including ARC-AGI-2, GPQA, MATH, BBH, and HLE. Existing methods improve reasoning by expanding token-level search through chain-of-thought prompting, self-consistency, or reinforcement learning, but they leave the model's latent representation space fixed. When the required abstraction is not already encoded in this space, performance collapses. We propose Recursive Concept Evolution (RCE), a framework that enables pretrained language models to modify their internal representation geometry during inference. RCE introduces dynamically generated low-rank concept subspaces that are spawned when representational inadequacy is detected, selected through a minimum description length criterion, merged when synergistic, and consolidated via constrained optimization to preserve stability. This process allows the model to construct new abstractions rather than recombining existing ones. We integrate RCE with Mistral-7B and evaluate it across compositional reasoning benchmarks. RCE yields 12-18 point gains on ARC-AGI-2, 8-14 point improvements on GPQA and BBH, and consistent reductions in depth-induced error on MATH and HLE.

연구 동기 및 목표

사전 학습된 LLM에서 고정된 잠재 기하학의 구조적 한계가 합성적 추론에 미치는 영향 파악.
추론 시에 동적으로 저랭크 컨셉 서브스페이스를 생성하고 평가하며 구성하기 위한 RCE 제안.
RCE가 다양한 합성 벤치마크에서 견고한 개선을 제공하고 안정성과 효율성을 유지함을 시연.

제안 방법

고정된 기본 모델을 유지하면서 학습 가능한 저랭크 컨셉 서브스페이스를 잔여 스트림에 주입하고 단일 디코더 층에서 수행.
예측 엔트로피 및 상위 토큰 여유를 기반으로 한 실패 신호가 트리거될 때 후보 서브스페이스를 생성.
손실 감소와 모델 복잡도의 균형을 맞추는 최소 설명 길이(MDL) 기준으로 컨셋 선택.
잘라낸 SVD를 통한 시너지가 있는 공활성화를 보이는 컨셉을 병합하여 고차 추상화를 형성.
라이브러리 확장을 제어하고 안정성을 보존하기 위해 컨셉을 가지치고 결정화하며, 분포 이동을 제한하기 위한 선택적 KL 제한 업데이트를 적용.

실험 결과

연구 질문

RQ1정지된 사전 학습 언어 모델이 저랭크 컨셉 주입에 의한 표현 공간의 추론 시 확장으로 이점을 얻을 수 있는가?
RQ2MDL 기반 선택, 직교성 정규화, 시너지 기반 병합이 합성적 추론에서 견고하고 확장 가능한 개선을 제공하는가?
RQ3RCE가 여러 모델 규모와 다양한 합성 벤치마크(ARC-AGI-2, GPQA, MATH, BBH, HLE)에서 효율성을 유지하며 효과적인가?

주요 결과

방법	모델	ARC-AGI-2	MATH	BBH	GPQA	HLE
Base	Mistral-7B	12.4	28.6	51.3	24.1	8.2
CoT	Mistral-7B	15.1	34.2	57.8	28.5	10.1
SC (n=16)	Mistral-7B	16.8	37.1	60.2	30.3	11.4
ToT	Mistral-7B	17.3	36.8	59.5	31.0	11.9
GRPO	Mistral-7B	18.2	38.9	62.1	32.4	12.6
DisCO	Mistral-7B	19.7	41.3	64.8	34.2	13.8
RCE	Mistral-7B	28.0	47.4	70.5	41.4	18.7
Base	Llama-3-8B	14.1	31.4	54.7	27.3	9.6
RCE	Llama-3-8B	29.8	49.1	72.3	43.1	20.2
Base	Qwen-14B	19.3	42.8	63.5	36.7	14.3
RCE	Qwen-14B	33.6	54.2	76.1	48.9	23.1

RCE는 다섯 가지 합성 벤치마크와 여러 모델 규모에서 강력한 베이스라인 대비 일관된 정확도 향상을 제공합니다.
Mistral-7B에서 RCE는 ARC-AGI-2: 28.0%, MATH: 47.4%, BBH: 70.5%, GPQA: 41.4%, HLE: 18.7%를 달성합니다(DisCO의 19.7, 41.3, 64.8, 34.2, 13.8 대비).
RCE는 DisCO에 비해 ARC-AGI-2를 8.3포인트, GPQA를 7.2포인트 더 향상시키며 다른 작업에서도 주목할 만한 이점을 유지합니다; 14B 규모에서도 개선이 여전히 유의합니다.
배포 분산 하에서 RCE는 표준 ARC-AGI-2 정확도의 91% 이상을 유지하며, 베이스라인(유지율 68–80%)를 능가합니다.
컨셉 라이브러리는 안정화되며(예: Mistral-7B의 경우 47 컨셉), 기본 프롬 셋, 병합된 추상화, 도메인 일반 도구의 계층 구조를 형성합니다.
RCE는 더 높은 효율을 달성합니다: 기본 FLOPs 대비 약 1.04x, MATH에서 4% 오버헤드로, 16–25x의 계산 승수를 유발하는 토큰 중심 방법보다 우수합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.