[논문 리뷰] Automated Test Generation to Detect Individual Discrimination in AI Models
이 논문은 보호되는 속성(예: 성별, 인종)을 제외하고 동일한 개인이지만 다른 결정을 받는 개인적 차별성을 체계적으로 드러내기 위해 로컬 해석 가능성(예: LIME)을 활용하는 블랙박스 기반 기호 실행 테스트 생성 기법을 제안한다. 기호 실행 과정에서 로컬 해설기로부터 도출된 선형 근사치를 경로 제약 조건으로 사용함으로써, 최신 기술인 무작위 테스트보다 3.72배 더 많은 차별적 사례를 벤치마크에서 드러내는 타겟팅된 테스트 케이스를 생성한다.
Dependability on AI models is of utmost importance to ensure full acceptance of the AI systems. One of the key aspects of the dependable AI system is to ensure that all its decisions are fair and not biased towards any individual. In this paper, we address the problem of detecting whether a model has an individual discrimination. Such a discrimination exists when two individuals who differ only in the values of their protected attributes (such as, gender/race) while the values of their non-protected ones are exactly the same, get different decisions. Measuring individual discrimination requires an exhaustive testing, which is infeasible for a non-trivial system. In this paper, we present an automated technique to generate test inputs, which is geared towards finding individual discrimination. Our technique combines the well-known technique called symbolic execution along with the local explainability for generation of effective test cases. Our experimental results clearly demonstrate that our technique produces 3.72 times more successful test cases than the existing state-of-the-art across all our chosen benchmarks.
연구 동기 및 목표
- 보호되는 속성(예: 성별, 인종)을 제외하고 동일한 개인이지만 다른 결정을 받는 AI 모델 내 개인적 차별을 탐지하는 데 있어 핵심 과제를 해결하기 위해.
- THEMIS와 같은 기존 접근법에서 무작위 테스트 생성의 한계를 극복하여, 차별적 입력 조합을 체계적으로 탐색하지 못하는 문제를 해결하기 위해.
- 딥 뉴럴 네트워크와 같은 복잡하고 해석이 어려운 모델에 적용 가능한 확장 가능한 블랙박스 방법을 개발하기 위해.
- 기호 실행과 로컬 해석 가능성의 통합을 통해 경로 제약 조건이 부여된 입력 생성을 통해 테스트 케이스의 효율성을 향상시키기 위해.
- 초기 결함 탐지 이후 방향성 있는 탐색이 무방향 탐색만으로는 비교할 수 없을 정도로 차별적 사례의 발견을 크게 증가시킨다는 것을 입증하기 위해.
제안 방법
- 주어진 입력에 대해 로컬 해설기(예: LIME)를 사용하여 모델의 결정에 대한 선형 근사치를 생성하고, 이를 기호 실행에서의 서rogate 경로로 간주한다.
- 선형 모델의 계수를 제약 조건으로 간주하여 기호 실행을 이끌어내어 결정을 전환하는 입력 변형을 체계적으로 탐색할 수 있도록 한다.
- 기호 실행과 제약 조건 해결을 적용하여, 로컬 해설에서 유도된 제약 조건을 반복적으로 부정하거나 수정함으로써 새로운 테스트 입력을 생성한다.
- 초기 결함 탐지를 위해 훈련 데이터를 시드로 사용하는 무방향 기호 탐색을 우선 적용하고, 차별적 사례가 발견된 후에는 방향성 있는 탐색으로 전환한다.
- 로컬 해설기에서 유의미한 결정을 유도하는 고신뢰도 제약 조건만을 선택하여 검색을 최적화함으로써 불필요한 전환을 줄이고 효율성을 향상시킨다.
- 무방향 및 방향성 탐색 전략을 통합한다: 무방향 탐색은 초기 결함 탐지를 위해, 방향성 탐색은 차별적 입력 패턴의 깊은 탐색을 위해 사용한다.
실험 결과
연구 질문
- RQ1로컬 해석 가능성으로 유도된 기호 실행이 블랙박스 AI 모델 내 개인적 차별을 효과적으로 탐지할 수 있는가?
- RQ2기호 실행과 로컬 해석의 조합이 무작위 테스트 생성보다 차별적 행동을 드러내는 데 얼마나 더 우수한가?
- RQ3초기 결함 탐지 이후의 방향성 탐색이 무방향 탐색에 비해 차별적 입력 조합의 발견에 얼마나 더 효과적인가?
- RQ4훈련 데이터를 기호 실행의 시드로 사용하는 것이 초기 단계에서의 차별성 탐지에 얼마나 효과적인가?
- RQ5제안된 방법이 화이트박스 접근이 필요 없이 실생활의 비트리비얼 모델, 예를 들어 딥 뉴럴 네트워크에 대해 확장 가능한가?
주요 결과
- 제안된 방법은 모든 벤치마크에서 최신 기술인 THEMIS보다 3.72배 더 많은 성공적인 테스트 케이스를 생성하여 개인적 차별을 탐지했다.
- 초기 결함 탐지 이후의 방향성 탐색은 무방향 탐색만으로는 비교할 수 없을 정도로 더 많은 차별적 사례를 드러내었으며, 특히 German-age 및 Car와 같은 복잡한 모델에서 두드러졌다.
- 훈련 데이터 시드만을 사용하는 무방향 기호 탐색은 일부 벤치마크(예: German-age, Census)에서 단 4~7개의 테스트 케이스만 생성하여, 초기 결함 탐지 없이 결정 전환에 대한 신뢰도가 낮음을 보여주었다.
- Car 벤치마크에서는 무방향 탐색만으로 총 228개 중 179개의 성공적인 테스트 케이스를 생성하여, 초기 시드의 품질과 제약 조건에 대한 신뢰도가 성능에 중대한 영향을 미친다는 것을 시사했다.
- 로컬 해설기의 통합 덕분에 해석이 어려운 모델(예: 딥 뉴럴 네트워크)에 대한 효과적인 블랙박스 테스팅이 가능해졌으며, 특수한 솔버나 모델 번역이 필요 없어졌다.
- 로컬 해설기에서 유도된 고신뢰도, 결정에 관련된 제약 조건에 의존함으로써 불필요한 제약 조건 전환을 줄이고 테스트 케이스의 관련성과 효율성을 향상시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.