[论文解读] HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models
HYPE-EDIT-1 提供一个包含 100 项任务的基准,用以通过每项任务的 10 个独立输出来测量图像编辑模型的可靠性与人工评审成本。
Public demos of image editing models are typically best-case samples; real workflows pay for retries and review time. We introduce HYPE-EDIT-1, a 100-task benchmark of reference-based marketing/design edits with binary pass/fail judging. For each task we generate 10 independent outputs to estimate per-attempt pass rate, pass@10, expected attempts under a retry cap, and an effective cost per successful edit that combines model price with human review time. We release 50 public tasks and maintain a 50-task held-out private split for server-side evaluation, plus a standardized JSON schema and tooling for VLM and human-based judging. Across the evaluated models, per-attempt pass rates span 34-83 percent and effective cost per success spans USD 0.66-1.42. Models that have low per-image pricing are more expensive when you consider the total effective cost of retries and human reviews.
研究动机与目标
- 量化现实世界营销/设计编辑任务中图像编辑模型的可靠性。
- 衡量在实际工作流程中重试与人工评审的成本影响。
- 提供开源工具、公开数据集以及可复现比较的私有评估分割。
- 突出每张图像低成本与每次成功编辑的总体有效成本之间的权衡。
提出的方法
- 为每项任务创建 100 项策划的营销/设计编辑,附一张或两张参考图像。
- 针对每个任务生成 10 个独立输出以估计每次尝试的通过率。
- 由人工评审(多数表决)对每个输出进行判断,并使用 VLM 校验对齐。
- 计算通过率(P@1、Pass@10)、期望尝试次数,以及在重试上限下的有效成本。
- 将公开分割与私有分割的结果汇总,以实现纵向跟踪。
- 提供 JSON 任务架构与工具,便于在 VLM 与人工评审下进行评测。)
实验结果
研究问题
- RQ1在现实可重试框架下,前沿图像编辑模型的可靠性如何?
- RQ2在逐步重试的动态下,单次成功编辑的有效成本如何随模型价格变化而变化?
- RQ3公开分割与私有分割在可靠性与成本方面有何差异,评判工作流的鲁棒性如何?
- RQ4best-of-10 与首次尝试性能之间的差距(Hype Gap)在不同模型中如何体现?
- RQ5自动化的 VLM 评判与人工多数评判在实际评估中的一致性如何?
主要发现
| 模型 | 通过率 (%) | Pass@4 (%) | 期望尝试 | 有效成本 ($) |
|---|---|---|---|---|
| riverflow-2-b1 | 82.7 | 90.5 | 1.40 | 0.66 |
| gemini-3-pro-preview | 63.8 | 79.9 | 1.85 | 0.95 |
| gpt-image-1.5 | 61.2 | 70.3 | 2.04 | 1.30 |
| flux-2-max | 45.7 | 63.8 | 2.38 | 1.41 |
| qwen-image-edit-2511 | 45.4 | 57.4 | 2.48 | 1.33 |
| seedream-4.0 | 35.6 | 57.4 | 2.64 | 1.42 |
| seedream-4.5 | 34.4 | 59.9 | 2.63 | 1.39 |
- 在评估的模型中,单次尝试通过率范围为 34% 到 83%。
- 当允许多次尝试时,Pass@4(综合)显示出显著提升。
- 每次成功编辑的有效成本大致在 $0.66 到 $1.42 之间,取决于模型与重试动态。
- 价格较便宜的模型可能由于重试与人工评审而产生更高的总成本。
- Hype Gap(Pass@10 与 Pass@1 的差值)量化了最佳-十次抽样的可靠性下降程度。
- 具体综合结果(公开+私有)包括:riverflow-2-b1:通过率 82.7%、Pass@4 90.5%、期望尝试 1.40、有效成本 0.66;gemini-3-pro-preview:63.8%、79.9%、1.85、0.95;gpt-image-1.5:61.2%、70.3%、2.04、1.30;flux-2-max:45.7%、63.8%、2.38、1.41;qwen-image-edit-2511:45.4%、57.4%、2.48、1.33;seedream-4.0:35.6%、57.4%、2.64、1.42;seedream-4.5:34.4%、59.9%、2.63、1.39]。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。