[논문 리뷰] Competitive Programming with Large Reasoning Models
강화학습으로 구동되는 대형 추론 모델(o1, o1-ioi, o3)이 경쟁 프로그래밍 성능을 크게 향상시키고 도메인 특정 수작업 전략을 능가하며 IOI 2024에서 금메달을 획득하고 Codeforces 순위에서도 상위권에 도달합니다.
We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.
연구 동기 및 목표
- 복잡하고 객관적으로 평가 가능한 코딩 문제를 해결하기 위해 대형 추론 모델의 활용을 고무한다.
- 일반-purpose RL 파워드 모델과 도메인 특화 수작업 기반 추론 전략을 비교한다.
- 다양한 경쟁 프로그래밍 벤치마크(CodeForces, IOI)와 실제 소프트웨어 작업에서의 성능을 평가한다.
- RL 훈련의 규모 확장이 인간이 만든 테스트 시점 휴리스틱에 의존하는 것보다 최첨단 결과에 어떤 영향을 미치는지 평가한다.]
- method
- [
- method···
제안 방법
- OpenAI o1을 강화학습으로 학습시켜 코딩 및 추론 능력을 향상시키고 추론 during inference 중 코드 실행을 가능하게 한다.
- IOI 스타일 작업에 맞춘 추가 코딩 중심 RL 및 도메인 특화 테스트 시점 전략을 갖춘 변형인 o1-ioi를 미세 조정한다.
- 공식 유사 제약 하에서 CodeForces 대회를 시뮬레이션하고 임베딩을 이용한 오염 여부 확인으로 검사한다.
- 수작업 기반 테스트 시점 휴리스틱 없이 엔드-투-엔드 RL을 연구하기 위해 OpenAI o3의 초기 체크포인트와 비교한다.
- IOI 2024 문제를 공식 규정 하에서 및 완화된 제출 제한 하에서 테스트 시점 전략의 효과를 격리한다.
- SWE-bench 검증 및 HackerRank Astra를 통해 일반화된 추론 능력을 테스트하면서 실제 코딩 작업의 일반화를 평가한다.
실험 결과
연구 질문
- RQ1RL의 규모 확장이 인간이 설계한 추론 파이프라인을 넘어 코딩 및 추론 성능을 향상시키는가?
- RQ2경험적으로 도메인 특화 테스트 시점 전략은 경쟁 프로그래밍 과제에서 엔드-투-엔드 RL과 비교해 어떤 차이를 보이는가?
- RQ3o3와 같은 대형 추론 모델이 수작업 휴리스틱 없이 표준 대회 제약 下 금메달급 성능을 달성할 수 있는가?
- RQ4경쟁 프로그래밍의 개선이 실제 소프트웨어 공학 벤치마크로 확장되는가?]
- RQ5key_findings:
- RQ6key_findings는 영어로 이미 제공된 내용을 한국어로 번역합니다.
- RQ7
- RQ8
주요 결과
- o1-ioi는 추가 RL 및 IOI-특정 테스트 시점 전략으로 o1보다 향상되어 CodeForces 평가점수 1807(상위 62%) 및 2214(상위 98%)를 전체 테스트 시점 전략과 함께 달성한다.
- o3는 훨씬 더 큰 RL 컴퓨트로 학습되어 o1-ioi를 능가하며 CodeForces 평가점수 2724(상위 99.8%) 및 표준 제출 한계 하에서 395.64 IOI 포인트를 달성한다(금 메달 임계값 ~360).
- IOI 2024 라이브에서 o1-ioi는 50회의 제출로 213점(49%)을 기록; 완화된 제한 하에서는 362.14점이 금 임계값을 초과한다.
- o3는 인간이 설계한 휴리스틱 없이도 테스트 시점 추론에서 자율적 자기 개선을 보이며(예를 들어 때로는 출력을 검증하기 위한 무차별 탐색 검증을 생성) 향상된다.
- SWE-bench 및 Astra 실세계 코딩 작업에서 추론 중심 모델이 의미 있는 이점을 보인다: o1-preview는 GPT-4o 대비 pass@1에서 약 9.98pp 증가, RL 이후 o1은 63.92% pass@1로 향상, o3는 SWE-bench에서 o1 대비 22.8% 향상을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.