[论文解读] Does Object Recognition Work for Everyone?
这篇论文 在 Dollar Street 数据集上评估公开可用的对象识别系统,发现在跨国家和收入水平的准确性存在显著差距,差异由物品外观和情境差异驱动,建议需要更具全球代表性和多语言模型。
The paper analyzes the accuracy of publicly available object-recognition systems on a geographically diverse dataset. This dataset contains household items and was designed to have a more representative geographical coverage than commonly used image datasets in object recognition. We find that the systems perform relatively poorly on household items that commonly occur in countries with a low household income. Qualitative analyses suggest the drop in performance is primarily due to appearance differences within an object class (e.g., dish soap) and due to items appearing in a different context (e.g., toothbrushes appearing outside of bathrooms). The results of our study suggest that further work is needed to make object-recognition systems work equally well for people across different countries and income levels.
研究动机与目标
- 评估当前对象识别系统在不同国家和收入水平上是否表现相同。
- 确定 household-item 识别中的性能差异的主要原因。
- 使用多样化、真实世界图像量化跨收入和地理区域的准确性差距。
- 提出潜在方向以提高跨国家公平性的对象识别。
提出的方法
- 评估五大云端视觉服务(Azure、Clarifai、Google Cloud Vision、Amazon Rekognition、IBM Watson)以及在 Tencent ML Images 上训练的 ResNet-101 模型。
- 使用 Dollar Street 数据集,覆盖54个国家、264个家庭中的117个 household-item 类别;基线通过对前五个预测的人工标注来获得地面真值(accuracy@5)。
- 分析准确性随家庭收入(PPP 调整)和国家/地区变量变化;控制收入区间内样本量。
- 调查差异来源:地理抽样偏差和数据收集中的语言/基语言效应。
- 提供补充分析,包括按国家的地图和聚焦印度子集以解耦收入和位置。
实验结果
研究问题
- RQ1图像来源国家与家庭收入的不同,对象识别准确性如何变化?
- RQ2驱动准确性差异的主要因素是什么(同类内部的外观、情境,还是数据集偏差)?
- RQ3多个公开云系统在跨国家/收入方面的识别差距是否相似?
- RQ4哪些策略可以缓解地理和收入相关的性能差距(如基于地理的重采样、多语言训练)?
主要发现
- 按收入的平均准确性差异:来自每月收入<US$50的家庭的物品的准确性比来自月收入>US$3,500的家庭的物品低约10个百分点。
- 地理差异很大:美国的准确性比索马里或布基纳法索高约15–20个百分点。
- 差异由同类内的外观差异(如 dish soap)和物品出现在不同情境中(如在浴室外的牙刷)所驱动。
- 六个系统(五个云服务加上一个 ResNet-101 模型)的一致性结果。
- 地理和收入都是性能驱动因素;仅印度子集在单一国家内也显示出收入相关的准确性趋势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。