Skip to main content
QUICK REVIEW

[论文解读] HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models

Wing Chan, Richard Allen|arXiv (Cornell University)|Jan 25, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

HYPE-EDIT-1 提供一个包含 100 项任务的基准,用以通过每项任务的 10 个独立输出来测量图像编辑模型的可靠性与人工评审成本。

ABSTRACT

Public demos of image editing models are typically best-case samples; real workflows pay for retries and review time. We introduce HYPE-EDIT-1, a 100-task benchmark of reference-based marketing/design edits with binary pass/fail judging. For each task we generate 10 independent outputs to estimate per-attempt pass rate, pass@10, expected attempts under a retry cap, and an effective cost per successful edit that combines model price with human review time. We release 50 public tasks and maintain a 50-task held-out private split for server-side evaluation, plus a standardized JSON schema and tooling for VLM and human-based judging. Across the evaluated models, per-attempt pass rates span 34-83 percent and effective cost per success spans USD 0.66-1.42. Models that have low per-image pricing are more expensive when you consider the total effective cost of retries and human reviews.

研究动机与目标

  • 量化现实世界营销/设计编辑任务中图像编辑模型的可靠性。
  • 衡量在实际工作流程中重试与人工评审的成本影响。
  • 提供开源工具、公开数据集以及可复现比较的私有评估分割。
  • 突出每张图像低成本与每次成功编辑的总体有效成本之间的权衡。

提出的方法

  • 为每项任务创建 100 项策划的营销/设计编辑,附一张或两张参考图像。
  • 针对每个任务生成 10 个独立输出以估计每次尝试的通过率。
  • 由人工评审(多数表决)对每个输出进行判断,并使用 VLM 校验对齐。
  • 计算通过率(P@1、Pass@10)、期望尝试次数,以及在重试上限下的有效成本。
  • 将公开分割与私有分割的结果汇总,以实现纵向跟踪。
  • 提供 JSON 任务架构与工具,便于在 VLM 与人工评审下进行评测。)

实验结果

研究问题

  • RQ1在现实可重试框架下,前沿图像编辑模型的可靠性如何?
  • RQ2在逐步重试的动态下,单次成功编辑的有效成本如何随模型价格变化而变化?
  • RQ3公开分割与私有分割在可靠性与成本方面有何差异,评判工作流的鲁棒性如何?
  • RQ4best-of-10 与首次尝试性能之间的差距(Hype Gap)在不同模型中如何体现?
  • RQ5自动化的 VLM 评判与人工多数评判在实际评估中的一致性如何?

主要发现

模型通过率 (%)Pass@4 (%)期望尝试有效成本 ($)
riverflow-2-b182.790.51.400.66
gemini-3-pro-preview63.879.91.850.95
gpt-image-1.561.270.32.041.30
flux-2-max45.763.82.381.41
qwen-image-edit-251145.457.42.481.33
seedream-4.035.657.42.641.42
seedream-4.534.459.92.631.39
  • 在评估的模型中,单次尝试通过率范围为 34% 到 83%。
  • 当允许多次尝试时,Pass@4(综合)显示出显著提升。
  • 每次成功编辑的有效成本大致在 $0.66 到 $1.42 之间,取决于模型与重试动态。
  • 价格较便宜的模型可能由于重试与人工评审而产生更高的总成本。
  • Hype Gap(Pass@10 与 Pass@1 的差值)量化了最佳-十次抽样的可靠性下降程度。
  • 具体综合结果(公开+私有)包括:riverflow-2-b1:通过率 82.7%、Pass@4 90.5%、期望尝试 1.40、有效成本 0.66;gemini-3-pro-preview:63.8%、79.9%、1.85、0.95;gpt-image-1.5:61.2%、70.3%、2.04、1.30;flux-2-max:45.7%、63.8%、2.38、1.41;qwen-image-edit-2511:45.4%、57.4%、2.48、1.33;seedream-4.0:35.6%、57.4%、2.64、1.42;seedream-4.5:34.4%、59.9%、2.63、1.39]。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。