QUICK REVIEW

[论文解读] HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models

Wing Chan, Richard Allen|arXiv (Cornell University)|Jan 25, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

HYPE-EDIT-1 提供一个包含 100 项任务的基准，用以通过每项任务的 10 个独立输出来测量图像编辑模型的可靠性与人工评审成本。

ABSTRACT

Public demos of image editing models are typically best-case samples; real workflows pay for retries and review time. We introduce HYPE-EDIT-1, a 100-task benchmark of reference-based marketing/design edits with binary pass/fail judging. For each task we generate 10 independent outputs to estimate per-attempt pass rate, pass@10, expected attempts under a retry cap, and an effective cost per successful edit that combines model price with human review time. We release 50 public tasks and maintain a 50-task held-out private split for server-side evaluation, plus a standardized JSON schema and tooling for VLM and human-based judging. Across the evaluated models, per-attempt pass rates span 34-83 percent and effective cost per success spans USD 0.66-1.42. Models that have low per-image pricing are more expensive when you consider the total effective cost of retries and human reviews.

研究动机与目标

量化现实世界营销/设计编辑任务中图像编辑模型的可靠性。
衡量在实际工作流程中重试与人工评审的成本影响。
提供开源工具、公开数据集以及可复现比较的私有评估分割。
突出每张图像低成本与每次成功编辑的总体有效成本之间的权衡。

提出的方法

为每项任务创建 100 项策划的营销/设计编辑，附一张或两张参考图像。
针对每个任务生成 10 个独立输出以估计每次尝试的通过率。
由人工评审（多数表决）对每个输出进行判断，并使用 VLM 校验对齐。
计算通过率（P@1、Pass@10）、期望尝试次数，以及在重试上限下的有效成本。
将公开分割与私有分割的结果汇总，以实现纵向跟踪。
提供 JSON 任务架构与工具，便于在 VLM 与人工评审下进行评测。）

实验结果

研究问题

RQ1在现实可重试框架下，前沿图像编辑模型的可靠性如何？
RQ2在逐步重试的动态下，单次成功编辑的有效成本如何随模型价格变化而变化？
RQ3公开分割与私有分割在可靠性与成本方面有何差异，评判工作流的鲁棒性如何？
RQ4best-of-10 与首次尝试性能之间的差距（Hype Gap）在不同模型中如何体现？
RQ5自动化的 VLM 评判与人工多数评判在实际评估中的一致性如何？

主要发现

模型	通过率 (%)	Pass@4 (%)	期望尝试	有效成本 ($)
riverflow-2-b1	82.7	90.5	1.40	0.66
gemini-3-pro-preview	63.8	79.9	1.85	0.95
gpt-image-1.5	61.2	70.3	2.04	1.30
flux-2-max	45.7	63.8	2.38	1.41
qwen-image-edit-2511	45.4	57.4	2.48	1.33
seedream-4.0	35.6	57.4	2.64	1.42
seedream-4.5	34.4	59.9	2.63	1.39

在评估的模型中，单次尝试通过率范围为 34% 到 83%。
当允许多次尝试时，Pass@4（综合）显示出显著提升。
每次成功编辑的有效成本大致在 $0.66 到 $1.42 之间，取决于模型与重试动态。
价格较便宜的模型可能由于重试与人工评审而产生更高的总成本。
Hype Gap（Pass@10 与 Pass@1 的差值）量化了最佳-十次抽样的可靠性下降程度。
具体综合结果（公开+私有）包括：riverflow-2-b1：通过率 82.7%、Pass@4 90.5%、期望尝试 1.40、有效成本 0.66；gemini-3-pro-preview：63.8%、79.9%、1.85、0.95；gpt-image-1.5：61.2%、70.3%、2.04、1.30；flux-2-max：45.7%、63.8%、2.38、1.41；qwen-image-edit-2511：45.4%、57.4%、2.48、1.33；seedream-4.0：35.6%、57.4%、2.64、1.42；seedream-4.5：34.4%、59.9%、2.63、1.39]。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。