QUICK REVIEW

[论文解读] Does Object Recognition Work for Everyone?

Terrance DeVries, Ishan Misra|arXiv (Cornell University)|Jun 6, 2019

Visual Attention and Saliency Detection参考文献 40被引用 101

一句话总结

这篇论文在 Dollar Street 数据集上评估公开可用的对象识别系统，发现在跨国家和收入水平的准确性存在显著差距，差异由物品外观和情境差异驱动，建议需要更具全球代表性和多语言模型。

ABSTRACT

The paper analyzes the accuracy of publicly available object-recognition systems on a geographically diverse dataset. This dataset contains household items and was designed to have a more representative geographical coverage than commonly used image datasets in object recognition. We find that the systems perform relatively poorly on household items that commonly occur in countries with a low household income. Qualitative analyses suggest the drop in performance is primarily due to appearance differences within an object class (e.g., dish soap) and due to items appearing in a different context (e.g., toothbrushes appearing outside of bathrooms). The results of our study suggest that further work is needed to make object-recognition systems work equally well for people across different countries and income levels.

研究动机与目标

评估当前对象识别系统在不同国家和收入水平上是否表现相同。
确定 household-item 识别中的性能差异的主要原因。
使用多样化、真实世界图像量化跨收入和地理区域的准确性差距。
提出潜在方向以提高跨国家公平性的对象识别。

提出的方法

评估五大云端视觉服务（Azure、Clarifai、Google Cloud Vision、Amazon Rekognition、IBM Watson）以及在 Tencent ML Images 上训练的 ResNet-101 模型。
使用 Dollar Street 数据集，覆盖54个国家、264个家庭中的117个 household-item 类别；基线通过对前五个预测的人工标注来获得地面真值（accuracy@5）。
分析准确性随家庭收入（PPP 调整）和国家/地区变量变化；控制收入区间内样本量。
调查差异来源：地理抽样偏差和数据收集中的语言/基语言效应。
提供补充分析，包括按国家的地图和聚焦印度子集以解耦收入和位置。

实验结果

研究问题

RQ1图像来源国家与家庭收入的不同，对象识别准确性如何变化？
RQ2驱动准确性差异的主要因素是什么（同类内部的外观、情境，还是数据集偏差）？
RQ3多个公开云系统在跨国家/收入方面的识别差距是否相似？
RQ4哪些策略可以缓解地理和收入相关的性能差距（如基于地理的重采样、多语言训练）？

主要发现

按收入的平均准确性差异：来自每月收入<US$50的家庭的物品的准确性比来自月收入>US$3,500的家庭的物品低约10个百分点。
地理差异很大：美国的准确性比索马里或布基纳法索高约15–20个百分点。
差异由同类内的外观差异（如 dish soap）和物品出现在不同情境中（如在浴室外的牙刷）所驱动。
六个系统（五个云服务加上一个 ResNet-101 模型）的一致性结果。
地理和收入都是性能驱动因素；仅印度子集在单一国家内也显示出收入相关的准确性趋势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。