Skip to main content
QUICK REVIEW

[논문 리뷰] Domino: Discovering Systematic Errors with Cross-Modal Embeddings

Sabri Eyuboglu, Maya Varma|arXiv (Cornell University)|2022. 03. 24.
Topic Modeling인용 수 39
한 줄 요약

도미노는 교차 모달 임베딩과 오류 인식 혼합 모델을 사용하여 일관되고 성능이 떨어지는 데이터 슬라이스를 발견하고 이를 자연어로 설명하며, 실제 슬라이스 탐지 성능을 향상시키고 NL 설명을 가능하게 한다.

ABSTRACT

Machine learning models that achieve high overall accuracy often make systematic errors on important subsets (or slices) of data. Identifying underperforming slices is particularly challenging when working with high-dimensional inputs (e.g. images, audio), where important slices are often unlabeled. In order to address this issue, recent studies have proposed automated slice discovery methods (SDMs), which leverage learned model representations to mine input data for slices on which a model performs poorly. To be useful to a practitioner, these methods must identify slices that are both underperforming and coherent (i.e. united by a human-understandable concept). However, no quantitative evaluation framework currently exists for rigorously assessing SDMs with respect to these criteria. Additionally, prior qualitative evaluations have shown that SDMs often identify slices that are incoherent. In this work, we address these challenges by first designing a principled evaluation framework that enables a quantitative comparison of SDMs across 1,235 slice discovery settings in three input domains (natural images, medical images, and time-series data). Then, motivated by the recent development of powerful cross-modal representation learning approaches, we present Domino, an SDM that leverages cross-modal embeddings and a novel error-aware mixture model to discover and describe coherent slices. We find that Domino accurately identifies 36% of the 1,235 slices in our framework - a 12 percentage point improvement over prior methods. Further, Domino is the first SDM that can provide natural language descriptions of identified slices, correctly generating the exact name of the slice in 35% of settings.

연구 동기 및 목표

  • 도메인 전문가에게 일관성과 의미를 갖는 성능 저하 데이터 슬라이스를 식별할 필요성을 제시한다.
  • 이미지, 의료영상, 시계열 도메인의 1,235개 슬라이스 탐색 설정에 걸친 SDM에 대한 원리적이고 확장 가능한 평가 프레임워크를 제안한다.
  • 교차 모달 임베딩을 활용하여 슬라이스 일관성을 높이고 NL 슬라이스 설명을 가능하게 하는 SDM인 Domino를 소개한다.
  • 이전 SDM에 비해 Domino의 정량적 이점을 입증하고 자동 슬라이스 설명의 가능성을 보여준다.

제안 방법

  • 데이터를 분할하는 k개의 일관된 슬라이스 S를 포함하도록 입력 X와 레이블 Y로 슬라이스 탐색을 공식화한다.
  • 1,235개의 설정에서 SDM의 미부합성과 일관성을 측정하는 평가 프레임워크를 개발한다.
  • Domino를 도입한다: 입력을 교차 모달 표현 g_input으로 임베딩하고 텍스트를 같은 잠재 공간에서 g_text로 임베딩한다.
  • 임베딩, 레이블, 예측에 대해 오류 인식 가우시안 혼합 모델을 적용하여 hat{k}개의 슬라이스를 식별한다.
  • 발견된 슬라이스에 대해 슬라이스 프로토타입을 텍스트 임베딩 말뭉치와 정렬하여 자연어 설명을 생성한다.

실험 결과

연구 질문

  • RQ1SDM이 다양한 도메인과 데이터 모달리티에서 일관되고 성능 저하가 있는 슬라이스를 얼마나 잘 식별할 수 있는가?
  • RQ2교차 모달 임베딩이 단일 모달 임베딩과 비교하여 발견된 슬라이스의 일관성과 서술성을 향상시키는가?
  • RQ3SDM이 발견된 슬라이스의 정확한 명명을 자동으로 생성하는 자연어 설명을 제공할 수 있는가?

주요 결과

  • Domino는 1,235개 설정에서 실제로 일관된 슬라이스의 36%를 식별하며, 이전 방법에 비해 12%포인트 향상이다.
  • 교차 모달 임베딩은 자연 이미지, 의료 이미지, 시계열 데이터에서 슬라이스 탐색 성능에 상당한 향상을 가져온다.
  • 도미노는 교차 모달 임베딩으로 평균 P@10 향상을 달성한다. 예: 합성 모델: CLIP 0.570 vs 베이스라인 0.347–0.370; 학습된 모델도 단일 모달 임베딩에 비해 CLIP를 약 15포인트 정도 우선한다.
  • 도미노는 발견된 슬라이스의 자연어 설명을 생성하는 첫 번째 SDM으로, 설정의 35%에서 슬라이스의 정확한 이름을 명명하고 자연 이미지에서 정확한 이름이나 동의어를 top-1으로 차지하는 비율은 34.7%(희귀), 41.0%(상관), 39.0%(노이즈 라벨)이다.
  • 도미노의 탑-10 구문 순위: 57.4%(희귀), 55.4%(상관), 48.7%(노이즈 라벨)으로 상위 10개 설명에 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.