[论文解读] RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images
RAWDet-7 提供一个大规模 RAW 图像数据集,具有密集的七类注释和对象描述,并在多传感器与条件下对检测与描述进行在模拟低位量化下的基准测试;结果表明 RAW 训练模型的鲁棒性和量化感知输入缩放的有效性。
Most vision models are trained on RGB images processed through ISP pipelines optimized for human perception, which can discard sensor-level information useful for machine reasoning. RAW images preserve unprocessed scene data, enabling models to leverage richer cues for both object detection and object description, capturing fine-grained details, spatial relationships, and contextual information often lost in processed images. To support research in this domain, we introduce RAWDet-7, a large-scale dataset of ~25k training and 7.6k test RAW images collected across diverse cameras, lighting conditions, and environments, densely annotated for seven object categories following MS-COCO and LVIS conventions. In addition, we provide object-level descriptions derived from the corresponding high-resolution sRGB images, facilitating the study of object-level information preservation under RAW image processing and low-bit quantization. The dataset allows evaluation under simulated 4-bit, 6-bit, and 8-bit quantization, reflecting realistic sensor constraints, and provides a benchmark for studying detection performance, description quality & detail, and generalization in low-bit RAW image processing. Dataset & code upon acceptance.
研究动机与目标
- 使用 RAW 传感器数据进行机器推理,而非可能丢失传感器级信息的处理过的 sRGB 图像以作为动机。
- 提供跨多个传感器、照明条件和场景的密集、高质量 RAW 数据集。
- 在低位量化下实现对检测与描述的受控基准测试。
- 研究输入缩放与量化策略如何影响检测性能和描述保真度。
提出的方法
- 将四个现有 RAW 数据集整合并重新标注为 RAWDet-7,保留七个对象类别,遵循 MS-COCO 和 LVIS 的约定。
- 提供密集的高质量边界框注释,以及来自高分辨率 sRGB 图像的 Ground-truth 对象描述。
- 在 RAW 输入上对 4、6、8 位量化进行检测性能评估,使用线性、对数、可学习伽玛和对数+伽玛缩放方法。
- 在量化 RAW 设置下,与检测器联合学习一个特定任务的伽玛缩放参数以提升性能。
- 在零-shot 和微调情景下,评估标准检测器(Faster R-CNN、RetinaNet、PAA)与大型视觉语言模型(MM-Grounding-DINO)在 RAW 输入下的表现。

实验结果
研究问题
- RQ1在不同比特深度和缩放策略下,RAW 图像的对象检测性能如何与 sRGB 相比?
- RQ2RAWDet-7 的量化感知输入映射是否能保留细节并在传感器与照明条件之间改善泛化?
- RQ3基于 RAW 输入得到的对象描述在多大程度上与来自高分辨率 sRGB 图像的描述一致?
- RQ4大型视觉语言模型在量化 RAW 设置下获取 RAW 输入是否受益于提示或微调?
主要发现
- 与量化感知伽玛缩放共同训练显著提升在各比特深度下相对于线性或固定缩放的检测性能。
- 对数缩放和学习到的伽玛缩放在多种配置(包括 6 位和 8 位 RAW 输入)上可达到或超越 sRGB 的性能。
- 在 RAWDet-7 上的联合训练相比单独对每个子集训练,在各个 RAW 子集上的性能有所提升。
- 即使在零-shot 情况下使用大型视觉语言模型(MM-Grounding-DINO),在经过合适输入缩放的量化 RAW 输入上也能获得有意义的预测。
- 来自处理过的 RAW 图像(log+gamma)的对象描述相对于高分辨率 sRGB 的参考保留了更多细节与保真度,而非线性 RAW 或仅 RAW 的基线。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。