QUICK REVIEW

[논문 리뷰] Geometric Dataset Distances via Optimal Transport

David Alvarez-Melis, Nicolò Fusi|arXiv (Cornell University)|2020. 02. 07.

Domain Adaptation and Few-Shot Learning참고 문헌 42인용 수 65

한 줄 요약

모델 무관하고 학습 없이 데이터셋 간 거리를 최적 운송(OT)으로 정의하고, 라벨을 특징의 분포로 모델링합니다; 작업과 모달리티 전반에서 전이 학습 난이도와의 상관관계를 보여준다.

ABSTRACT

The notion of task similarity is at the core of various machine learning paradigms, such as domain adaptation and meta-learning. Current methods to quantify it are often heuristic, make strong assumptions on the label sets across the tasks, and many are architecture-dependent, relying on task-specific optimal parameters (e.g., require training a model on each dataset). In this work we propose an alternative notion of distance between datasets that (i) is model-agnostic, (ii) does not involve training, (iii) can compare datasets even if their label sets are completely disjoint and (iv) has solid theoretical footing. This distance relies on optimal transport, which provides it with rich geometry awareness, interpretable correspondences and well-understood properties. Our results show that this novel distance provides meaningful comparison of datasets, and correlates well with transfer learning hardness across various experimental settings and datasets.

연구 동기 및 목표

특정 예측기나 각 데이터셋에 대한 학습에 의존하지 않는 데이터셋 간 거리를 동기 부여하고 형식화한다.
라벨 세트가 서로 다르더라도 특징과 라벨의 결합 분포를 비교하는 실용적인 OT 기반 프레임워크를 제안한다.
대규모 데이터셋에서 거리를 계산하기 위한 확장 가능한 알고리즘 기술을 제시한다.
제안된 거리가 도메인과 모달리티에 걸친 전이 학습 성능과 상관관계가 있음을 실험적으로 검증한다.

제안 방법

특징-레이블 결합 공간을 정의하고, 이 공간에 대한 거리를 최적 운송을 통해 분포로 확장한다.
각 라벨을 특징의 분포로 모델링하고 이를 가우시안 근사(평균 및 공분산)로 표현하여 해석적 Wasserstein 계산을 가능하게 한다.
특징 간 거리와 라벨 분포 간 거리를 결합한 기본 메트릭을 계산한다(Wasserstein 간의 가우시안).
데이터셋 거리의 확장 가능한 계산을 위해 엔트로피 정규화 OT(Sinkhorn)를 사용한다(OT 및 가우시안 변형).
전역 OT 문제의 속도를 높이기 위해 라벨-대-라벨 거리들을 미리 계산하고, 확장성을 위해 온라인 배치 통계를 활용한다.

실험 결과

연구 질문

RQ1훈련 없이도 원리적이며 데이터셋의 기하학을 활용하는 분리된 라벨 세트를 다룰 수 있는 데이터셋 간 거리 정의가 가능한가?
RQ2OT 기반 데이터셋 거리가 다양한 작업과 데이터 모달리티 전반에 걸친 전이 학습 성능을 예측하는가?
RQ3실용적 계산 시간으로 대규모 실제 데이터셋에 OT 기반 데이터셋 거리를 확장하는 것이 가능할까?
RQ4가우시안 근사 라벨 분포가 거리 계산을 위한 진짜 라벨-조건부 특징 분포를 얼마나 잘 근사하는가?

주요 결과

제안된 OT 기반 데이터셋 거리(OTDD)는 특징-레이블 분포 공간에서 데이터셋 간의 유효한 거리(metric)를 정의한다.
라벨-조건부 특징을 가우시안으로 표현하면 해석 가능한 닫힌 형태의 Wasserstein 거리가 얻어지며, 가우시안/타원형 라벨 하에서 정확성을 갖는 확장 가능한 거리(d_OTN)가 얻어진다.
실험 결과는 MNIST 변형, USPS, EMNIST, Fashion-MNIST, Tiny-ImageNet, CIFAR-10 및 NLP 데이터셋 전반에 걸쳐 OTDD와 전이 학습의 전달성 간에 강한 상관관계가 있음을 보여준다.
OTDD는 어떤 변환이 전이 가능성을 높이는지 예측하여 데이터 증강 선택을 안내할 수 있다.
임베딩(BERT)을 이용한 텍스트 분류 전반에서 OTDD가 전이 가능성과 상관관계를 보여 NLP에의 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.