[論文レビュー] RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images
RAWDet-7は、複数センサーと条件下で低ビット量子化を模擬した検出とキャプション付けのベンチマークを含む、密な七クラス注釈とオブジェクト記述を備えた大規模RAW画像データセットを提供します;結果はRAWで訓練されたモデルの頑健性と、量子化対応の入力スケーリングの有効性を示します。
Most vision models are trained on RGB images processed through ISP pipelines optimized for human perception, which can discard sensor-level information useful for machine reasoning. RAW images preserve unprocessed scene data, enabling models to leverage richer cues for both object detection and object description, capturing fine-grained details, spatial relationships, and contextual information often lost in processed images. To support research in this domain, we introduce RAWDet-7, a large-scale dataset of ~25k training and 7.6k test RAW images collected across diverse cameras, lighting conditions, and environments, densely annotated for seven object categories following MS-COCO and LVIS conventions. In addition, we provide object-level descriptions derived from the corresponding high-resolution sRGB images, facilitating the study of object-level information preservation under RAW image processing and low-bit quantization. The dataset allows evaluation under simulated 4-bit, 6-bit, and 8-bit quantization, reflecting realistic sensor constraints, and provides a benchmark for studying detection performance, description quality & detail, and generalization in low-bit RAW image processing. Dataset & code upon acceptance.
研究の動機と目的
- RAWセンサデータを機械的推論のために使用する動機付けを行い、センサーレベルの情報を失い得る処理済みのsRGB画像を避ける。
- 複数センサー・照明条件・シーンにわたる密で高品質なRAWデータセットを提供する。
- 低ビット量子化下で検出と記述の制御可能なベンチマークを可能にする。
- 入力スケーリングと量子化戦略が検出性能と記述忠実度に与える影響を調査する。
提案手法
- MS-COCOおよびLVISの規約に従い、4つの既存RAWデータセットを統合・再注釈してRAWDet-7を七つの物体カテゴリで構成する。
- 高解像度sRGB画像から導出した密で高品質な境界ボックス注釈と真の物体記述を提供する。
- 線形・対数・学習可能ガンマ・log+gammaスケーリング法を用いて、4-/6-/8ビット量子化されたRAW入力に対する検出性能を評価する。
- 検出性能向上のため、量子化されたRAW設定で検出器とタスク固有のガンマスケーリングパラメータを共同で学習する。
- 標準検出器(Faster R-CNN、RetinaNet、PAA)と大規模ビジョン言語モデル(MM-Grounding-DINO)を、ゼロショットおよびファインチューニングされたシナリオで評価する。

実験結果
リサーチクエスチョン
- RQ1RAW画像での検出性能は、さまざまなビット深度とスケーリング戦略の下でsRGBと比較してどうなるか。
- RQ2RAWDet-7の量子化対応入力マッピングは、細かなディテールの保持と、センサーや照明条件を跨ぐ一般化を改善できるか。
- RQ3RAW入力から得られる物体記述は、高解像度のsRGB画像からの記述とどの程度一致するか。
- RQ4大規模ビジョン言語モデルは、量子化RAW設定でのプロンプトベースまたはファインチューニング時にRAW入力から恩恵を受けるか。
主な発見
- 量子化対応のガンマスケーリングを用いた jointly 訓練は、ビット深度を問わず線形または固定スケーリングよりも検出性能を大幅に向上させる。
- 対数スケーリングと学習可能ガンマスケーリングは、6-/8-bit RAW入力を含む複数の設定でsRGBと同等以上の性能を達成する。
- RAWDet-7での訓練は、個々のRAWサブセットを別々に訓練するより全体での性能を向上させる。
- MM-Grounding-DINOのような大規模VLMでも、適切な入力スケーリングを用いれば、ゼロショット評価で意味のある予測が得られる。
- 処理済みRAW画像(log+gamma)から生成された物体記述は、線形RAWやraw-onlyベースラインよりも高解像度のsRGB参照に対する詳細と忠実度を保つ。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。