Skip to main content
QUICK REVIEW

[论文解读] Domino: Discovering Systematic Errors with Cross-Modal Embeddings

Sabri Eyuboglu, Maya Varma|arXiv (Cornell University)|Mar 24, 2022
Topic Modeling被引用 39
一句话总结

Domino 使用跨模态嵌入和一个具备误差感知的混合模型来发现连贯的、表现不佳的数据切片,并为它们生成自然语言描述,改善真实标签切片的检测并实现 NL 说明。

ABSTRACT

Machine learning models that achieve high overall accuracy often make systematic errors on important subsets (or slices) of data. Identifying underperforming slices is particularly challenging when working with high-dimensional inputs (e.g. images, audio), where important slices are often unlabeled. In order to address this issue, recent studies have proposed automated slice discovery methods (SDMs), which leverage learned model representations to mine input data for slices on which a model performs poorly. To be useful to a practitioner, these methods must identify slices that are both underperforming and coherent (i.e. united by a human-understandable concept). However, no quantitative evaluation framework currently exists for rigorously assessing SDMs with respect to these criteria. Additionally, prior qualitative evaluations have shown that SDMs often identify slices that are incoherent. In this work, we address these challenges by first designing a principled evaluation framework that enables a quantitative comparison of SDMs across 1,235 slice discovery settings in three input domains (natural images, medical images, and time-series data). Then, motivated by the recent development of powerful cross-modal representation learning approaches, we present Domino, an SDM that leverages cross-modal embeddings and a novel error-aware mixture model to discover and describe coherent slices. We find that Domino accurately identifies 36% of the 1,235 slices in our framework - a 12 percentage point improvement over prior methods. Further, Domino is the first SDM that can provide natural language descriptions of identified slices, correctly generating the exact name of the slice in 35% of settings.

研究动机与目标

  • 激发识别对领域专家来说连贯且有意义的表现不佳数据切片的需求。
  • 提出一个原则性、可扩展的 SDM 评估框架,覆盖图像、医学图像和时间序列域的 1,235 种切片发现设置。
  • 引入 Domino,一种利用跨模态嵌入来提升切片连贯性并实现 NL 切片描述的 SDM。
  • 展示 Domino 相较于先前的 SDM 的定量增益,并展示自动切片叙述的可行性。

提出的方法

  • 用输入 X、标签 Y,以及将数据分区的 k 个连贯切片 S 来表述切片发现。
  • 开发一个评估框架,在 1,235 种设置中衡量 SDM 的表现不佳性和连贯性。
  • 引入 Domino:用跨模态表示 g_input 对输入进行嵌入,用 g_text 对文本进行嵌入,使二者处于同一潜在空间。
  • 将具备误差感知的高斯混合模型应用于嵌入、标签和预测,以识别 hat{k} 个切片。
  • 通过将切片原型与文本嵌入语料对齐,为发现的切片生成自然语言描述。

实验结果

研究问题

  • RQ1SDM 在跨越多样领域与数据模态下,识别出连贯的、表现不佳的切片的能力如何?
  • RQ2与单模态嵌入相比,跨模态嵌入是否提高了发现切片的连贯性和描述性?
  • RQ3SDM 是否能够提供自动化的自然语言描述,准确命名所发现的切片?

主要发现

  • Domino 在 1,235 种设置中识别出 36% 的真实对齐切片,相比先前方法提升了 12 个百分点。
  • 跨模态嵌入在自然图像、医学图像和时间序列数据的切片发现性能上带来显著提升。
  • 在使用跨模态嵌入时,Domino 实现了平均 top-10 精度的提升,例如:合成模型:0.570(CLIP)对比基线 0.347–0.370;训练模型也偏好 CLIP 相对于单模态嵌入大约提升 约 15 个百分点。
  • Domino 是首个能够为发现的切片生成自然语言描述的 SDM,在 35% 的设置中正确命名切片,且在自然图像中以 top-1 排名的情况中,准确名称或同义词的排名分别为:34.7%(罕见)、41.0%(相关性)和 39.0%(带噪声标签)。
  • Domino 的前十短语排名:57.4%(罕见)、55.4%(相关性)、和 48.7%(带噪声标签)位于前十描述中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。