[论文解读] CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation
CoDiQ 引入六种难度增强策略的测试时刻标定、一个验证管线,以及 RL 调整的生成器,以大规模合成高难度、可解答的问题,从而产生 4.4 万问题语料库,在训练后提升 LRM 推理能力。
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.
研究动机与目标
- 推动可扩展的竞争级、可解答问题的合成,以推动 LRMs 的推理能力。
- 开发一个在测试时刻即可扩展且确保有效性的可控难度框架。
- 建立验证与排序机制,在难度与可解答性之间取得平衡。
- 构建 CoDiQ-Corpus(4.4 万道题)及专用生成器以提升下游推理。
- 实现 CoDiQ 资源的开源访问,支持进一步研究。
提出的方法
- 引入六种 Difficulty-Enhancement Strategies 指导 LLM 在题目中注入难点元素。
- 提出包含迭代细化与两个验证模块(难度估计与可解性验证)的 CoDiQ Pipeline。
- 建立相对难度范式,使用基于LLM的排序(LLMs-Ranking)与 ValueNetwork 评分方法(DS-VN)来产生连续的难度分数。
- Develop CoDiQ-Bench 用于跨模型的题-generation 能力的标准化评估。
- 通过强化学习构建 CoDiQ-Generator,优化难度推进与有效性信号。
- 整合 CoDiQ-Corpus 的 4.4 万道竞赛级数学与编码题,验证以此训练后推理能力的提升。

实验结果
研究问题
- RQ1如何利用测试时刻标定在保持可解性的前提下可控地提高题目难度?
- RQ2在题目生成中注入难度而不产生无效或不可解的问题有哪些有效策略?
- RQ3强化学习训练的生成器是否能进一步推高可解的高难度题目的上限?
- RQ4在受控难度题料上训练 LRMs 是否能提升下游推理性能?
- RQ5自动题生成在难度、可解性与计算成本之间的权衡如何?
主要发现
| Model | Rounds | Tokens | DR-LLM | DR-VN | DR(AVG) |
|---|---|---|---|---|---|
| GPT-OSS-20B | 2.9 | 5528.2 | 68.5 | 74.4 | 71.5 |
| GLM-4.6 | 2.8 | 3385.8 | 71.2 | 65.8 | 68.5 |
| Qwen3-32B | 2.3 | 1239.3 | 50.6 | 54.8 | 52.7 |
| Qwen3-8B | 3.4 | 1130.5 | 39.2 | 59.6 | 49.4 |
| GLM-Z1-9B-0414 | 2.7 | 1229.8 | 48.8 | 43.7 | 46.3 |
| Qwen3-14B | 3.1 | 2076.4 | 45.9 | 44.4 | 45.2 |
| Qwen3-4B | 2.8 | 1419.7 | 49.1 | 42.7 | 45.9 |
| Qwen3-1.7B | 3.3 | 844.5 | 25.6 | 37.1 | 31.4 |
| Qwen3-0.6B | 2.4 | 314.3 | 17.2 | 35.0 | 26.1 |
| CoDiQ Prompt(ours) GLM-4.6 | 2.7 | 7143.8 | 73.2 | 83.3 | 78.3 |
| CoDiQ Prompt(ours) GPT-OSS-20B | 2.1 | 8057.3 | 63.8 | 61.5 | 62.7 |
| CoDiQ Prompt(ours) Qwen3-32B | 2.2 | 4893.6 | 63.0 | 46.5 | 54.8 |
| CoDiQ Prompt(ours) Qwen3-14B | 2.6 | 5281.9 | 53.9 | 44.2 | 49.1 |
| CoDiQ Prompt(ours) Qwen3-4B | 2.8 | 4422.3 | 49.1 | 42.7 | 45.9 |
| CoDiQ Prompt(ours) Qwen3-8B | 2.4 | 4155.6 | 49.8 | 41.9 | 45.8 |
| CoDiQ Generator(ours) CoDiQ-Gen-8B | 3.4 | 7499.6 | 58.9 | 58.1 | 58.5 |
- CoDiQ 提示提升了推理Tokens的使用量与跨模型生成题目的难度。
- CoDiQ-Generator(8B)在生成高难度但可解的题目方面优于更大模型如 Qwen3-32B,原因在于 RL 对齐。
- 令牌预算分析显示,在可行生成中,较高的令牌消耗与较高的难度呈正相关。
- 移除可解性验证会提高观测到的难度上限,表明验证器对可解性难题的边界起到约束作用。
- CoDiQ-Corpus 在基于 DS-LLM 与 DS-VN 指标的平均难度上高于 AIME、NuminaMath-1.5、LiveCodeBench 与 Code-Contests。
- 使用 CoDiQ-Corpus 的课程学习实验相较基线提升了 MATH-500 与 AIME-2024 的表现。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。