[論文レビュー] HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models
HYPE-EDIT-1 は、タスクあたり 10 の独立出力を介して信頼性と実質的コストを測定する100タスクベンチマークを提供し、pass@4、pass@10、人的レビューを含むコストダイナミクスを公開する。
Public demos of image editing models are typically best-case samples; real workflows pay for retries and review time. We introduce HYPE-EDIT-1, a 100-task benchmark of reference-based marketing/design edits with binary pass/fail judging. For each task we generate 10 independent outputs to estimate per-attempt pass rate, pass@10, expected attempts under a retry cap, and an effective cost per successful edit that combines model price with human review time. We release 50 public tasks and maintain a 50-task held-out private split for server-side evaluation, plus a standardized JSON schema and tooling for VLM and human-based judging. Across the evaluated models, per-attempt pass rates span 34-83 percent and effective cost per success spans USD 0.66-1.42. Models that have low per-image pricing are more expensive when you consider the total effective cost of retries and human reviews.
研究の動機と目的
- 実世界のマーケティング/デザイン編集における画像編集モデルの信頼性を定量化する。
- 実用的なワークフローにおけるリトライと人的レビューのコスト影響を測定する。
- 再現性のある比較のためのオープンツール、公開データセット、プライベート評価分割を提供する。
- 1 枚あたりの低コストと成功編集あたりの総合的有効コストのトレードオフを強調する。
提案手法
- 各タスクにつき一枚または二枚の参照画像を含む100 のキュレーション編集を作成する。
- タスクごとに10 の独立した出力を生成し、試行ごとの通過率を推定する。
- 各出力を人的審査パネル(多数決)と整合性のためのVLMチェッカーで評価する。
- リトライ上限の下で通過率(P@1、Pass@10)、予想試行回数、実効コストを算出する。
- 公開分割と非公開分割の結果を統合し、長期的な追跡を可能にする。
- VLM および人間ジャッジで評価を実行するためのJSONタスクスキーマとツールを提供する。
実験結果
リサーチクエスチョン
- RQ1最先端の画像編集モデルは現実的なリトライフレームワークの下でどの程度の信頼性を示すのか。
- RQ2モデル価格とリトライダイナミクスによって成功編集あたりの実効コストはどう変化するのか。
- RQ3公開 vs. 非公開の分割は信頼性とコストの観点でどのように異なり、ジャッジングワークフローはどれほど堅牢か。
- RQ4best-of-10 と初回実行パフォーマンスのギャップ(Hype Gap)はモデル間でどの程度か。
- RQ5自動化されたVLM判断は現実的な評価において人間の多数決判断とどのように一致するのか。
主な発見
| Model | Pass Rate (%) | Pass@4 (%) | Expected Attempts | Effective Cost ($) |
|---|---|---|---|---|
| riverflow-2-b1 | 82.7 | 90.5 | 1.40 | 0.66 |
| gemini-3-pro-preview | 63.8 | 79.9 | 1.85 | 0.95 |
| gpt-image-1.5 | 61.2 | 70.3 | 2.04 | 1.30 |
| flux-2-max | 45.7 | 63.8 | 2.38 | 1.41 |
| qwen-image-edit-2511 | 45.4 | 57.4 | 2.48 | 1.33 |
| seedream-4.0 | 35.6 | 57.4 | 2.64 | 1.42 |
| seedream-4.5 | 34.4 | 59.9 | 2.63 | 1.39 |
- 評価対象のモデル間で、1回の試行の通過率は 34% から 83% の範囲。
- Pass@4(合算)は、複数回の試行が許可されると顕著な改善を示す。
- 成功編集あたりの実効コストはモデルとリトライダイナミクスによって約 $0.66 〜 $1.42 の範囲。
- 1 枚あたりの価格が安いモデルでもリトライと人的レビューによって総コストが高くなる可能性がある。
- Hype Gap(Pass@10 と Pass@1 の差)はベストオブ10 のサンプリングからの信頼性低下を定量化する。
- 具体的な統合結果(公開+非公開)は以下のとおり:riverflow-2-b1: Pass Rate 82.7%、Pass@4 90.5%、Expected Attempts 1.40、Effective Cost 0.66; gemini-3-pro-preview: 63.8%、79.9%、1.85、0.95; gpt-image-1.5: 61.2%、70.3%、2.04、1.30; flux-2-max: 45.7%、63.8%、2.38、1.41; qwen-image-edit-2511: 45.4%、57.4%、2.48、1.33; seedream-4.0: 35.6%、57.4%、2.64、1.42; seedream-4.5: 34.4%、59.9%、2.63、1.39]。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。