[논문 리뷰] A Survey on Evaluation of Out-of-Distribution Generalization
이 논문은 Out-of-Distribution (OOD) 일반화의 평가 방법을 조사하고, 데이터 가용성에 따라 OOD 성능 테스트, 예측, 그리고 고유 속성 특성화로 접근법을 분류하고 벤치마크, 데이터셋, 그리고 사전학습 모델 컨텍스트를 논의한다.
Machine learning models, while progressively advanced, rely heavily on the IID assumption, which is often unfulfilled in practice due to inevitable distribution shifts. This renders them susceptible and untrustworthy for deployment in risk-sensitive applications. Such a significant problem has consequently spawned various branches of works dedicated to developing algorithms capable of Out-of-Distribution (OOD) generalization. Despite these efforts, much less attention has been paid to the evaluation of OOD generalization, which is also a complex and fundamental problem. Its goal is not only to assess whether a model's OOD generalization capability is strong or not, but also to evaluate where a model generalizes well or poorly. This entails characterizing the types of distribution shifts that a model can effectively address, and identifying the safe and risky input regions given a model. This paper serves as the first effort to conduct a comprehensive review of OOD evaluation. We categorize existing research into three paradigms: OOD performance testing, OOD performance prediction, and OOD intrinsic property characterization, according to the availability of test data. Additionally, we briefly discuss OOD evaluation in the context of pretrained models. In closing, we propose several promising directions for future research in OOD evaluation.
연구 동기 및 목표
- 테스트 데이터 가용성에 따라 OOD 일반화를 평가하는 주요 패러다임을 식별하고 분류한다.
- 현재 데이터셋, 벤치마크, 및 평가 프로토콜이 비전, 텍스트, 및 표 형식 도메인 전반에서 OOD 평가를 어떻게 지원하는지 요약한다.
- 모델 선택, 데이터 누수, 및 시프트 분석의 도전을 논의하여 향후 OOD 평가 연구를 안내한다.
- 사전학습 모델 및 대형 언어 모델의 맥락에서 OOD 평가의 역할을 강조한다.
제안 방법
- OOD 평가를 성능 테스트, 성능 예측, 및 고유 속성 특성화의 세 가지 패러다임으로 분류한다.
- 배포분포 시프트를 생성하고 연구하기 위해 합성, 시각적, 텍스트, 및 표 형식 데이터셋을 설명한다.
- BD, 위상 왜곡 도메인 벤치마크(DomainBed), SubpopBench, WILDS, WHYSHIFT 등 벤치마크와 시프트 및 성능 이해를 위한 분석 방법을 검토한다.
- 공정한 OOD 평가에 대한 테스트 데이터 누수와 모델 선택 이슈의 영향을 논의한다.
- 사전학습 모델 및 LLM에 대한 OOD 평가 고려사항을 개요화한다.
실험 결과
연구 질문
- RQ1테스트 데이터 가용성에 따라 OOD 일반화를 평가하는 주요 패러다임은 무엇인가?
- RQ2OOD 데이터셋, 벤치마크, 및 평가 프로토콜은 데이터 모달리티 전반의 분포 시프트를 어떻게 테스트하도록 설계되어 있는가?
- RQ3OOD 성능과 근본적인 분포 시프트를 분석하고 해석하기 위한 방법은 어떤 것이 있는가?
- RQ4사전학습 모델과 대형 언어 모델에 OOD 평가가 어떻게 확장되는가?
- RQ5향후 방향은 OOD 평가의 신뢰성과 유용성을 어떻게 향상시킬 수 있는가?
주요 결과
- OOD 평가는 테스트 데이터 가용성에 따라 성능 테스트, 성능 예측, 및 고유 속성 특성화로 분류된다.
- 합성, 시각적, 텍스트, 및 표 형식 데이터셋과 벤치마크의 광범위한 다양한 분포 시프트 및 평가 요구를 지원한다.
- DomainBed, SubpopBench, WILDS와 같은 벤치마크는 OOD 평가를 표준화하고 모델 선택과 누수 문제를 다룬다.
- Shapley 값, 수송 기반 분해, 영역 기반 위험 분석과 같은 분석 방법은 특정 시프트에 대한 성능 변화를 기여하는 요인을 파악하는 데 도움을 준다.
- 사전학습 모델 및 LLM 맥락에서 OOD 평가의 논의가 증가하고 있어 평가 프로토콜의 적용 범위가 넓어지고 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.