Skip to main content
QUICK REVIEW

[논문 리뷰] SETA: Statistical Fault Attribution for Compound AI Systems

Sayak Ray Chowdhury, Meenakshi D'Souza|arXiv (Cornell University)|2026. 01. 27.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

SETA는 모듈식 강건성 테스트 프레임워크를 도입하여 메타모픽 테스트와 실행 추적 분석을 결합해 다-컴포넌트 AI 파이프라인의 결함을 로컬라이즈하고 실패를 특정 모듈에 귀속시킨다.

ABSTRACT

Modern AI systems increasingly comprise multiple interconnected neural networks to tackle complex inference tasks. Testing such systems for robustness and safety entails significant challenges. Current state-of-the-art robustness testing techniques, whether black-box or white-box, have been proposed and implemented for single-network models and do not scale well to multi-network pipelines. We propose a modular robustness testing framework that applies a given set of perturbations to test data. Our testing framework supports (1) a component-wise system analysis to isolate errors and (2) reasoning about error propagation across the neural network modules. The testing framework is architecture and modality agnostic and can be applied across domains. We apply the framework to a real-world autonomous rail inspection system composed of multiple deep networks and successfully demonstrate how our approach enables fine-grained robustness analysis beyond conventional end-to-end metrics.

연구 동기 및 목표

  • 동기: 모듈 간의 연쇄 실패로 인해 디버깅 도전이 확대된다.
  • 목표: 다-네트워크 파이프라인 내에서 정밀한 강건성 분석 및 결함 고립화를 가능하게 한다.
  • 목표: 메타모픽 관계 및 실행 추적을 사용하여 시스템 수준의 실패를 특정 구성요소에 귀속시키는 것을 목표로 한다.

제안 방법

  • 테스트 데이터에 섭동을 적용하고 구성요소별 메타모픽 관계를 분석하는 모듈식 프레임워크를 정의한다.
  • 구성요소 검사를 합성 메타모픽 관계(Composite Metamorphic Relations)와 시스템 전체 합성 점수로 집계하여 정확성을 진단한다.
  • 실행 추적을 상태-전이 그래프로 도식화하여 동적 프로파일링으로 결함을 국소화한다.
  • 각 모듈의 엔드투엔드 실패에 대한 기여도를 정량화하고 귀속 가중치로 정규화하는 통계적 결함 귀속(FC 점수)을 도입한다.
  • 객체 검출기와 다수의 분류기로 구성된 철도 비전 시스템을 실제 구현으로 제시하고, 취약점을 드러내기 위해 섭동을 사용한다.
Figure 1. input image
Figure 1. input image

실험 결과

연구 질문

  • RQ1복합 AI 시스템에서 구성요소마다 메타모픽 관계를 어떻게 정의하여 의사오류기 역할을 할 수 있도록 할 수 있는가?
  • RQ2실행 추적을 어떻게 사용하여 다-네트워크 파이프라인에서 시스템 수준의 실패를 특정 모듈에 귀속시킬 수 있는가?
  • RQ3통계적 귀속 프레임워크가 엔드투엔드 지표를 넘어 실패의 근본 원인을 분리할 수 있는가?
  • RQ4섭동 간의 실패에 대한 구성요소 기여도를 계산하고 정규화하는 과정은 어떻게 되는가?

주요 결과

  • SETA는 엔드투엔드 지표를 넘어 다단계 AI 파이프라인의 실패 기원을 로컬라이즈하고 숨겨진 취약점을 드러낼 수 있다.
  • 이 프레임워크는 구성요소별 메타모픽 테스트와 실행 추적을 결합하여 결함을 특정 모듈에 귀속한다.
  • 통계적 실패 기여도 점수와 정규화된 귀속 가중치는 각 모듈의 시스템 신뢰도에 대한 상대적 영향을 정량화한다.
  • 이 접근법은 자율 철도 유지보수를 위한 비전 시스템에 적용되어 인과적 결함 전파를 시연한다.
  • 메타모픽 관계는 복잡한 시스템에서 블랙박스 모델에 적합한 의사결정 없이도 거동 규정을 가능하게 한다.
Figure 11. A variety of weather and noise based ( zoom_blur , glass_blur , snow , frost , fog and gaussian_noise ) perturbations have been utilized to generate an extended synthetic test dataset that tests the autonomous railway system for robustness against weather.
Figure 11. A variety of weather and noise based ( zoom_blur , glass_blur , snow , frost , fog and gaussian_noise ) perturbations have been utilized to generate an extended synthetic test dataset that tests the autonomous railway system for robustness against weather.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.