Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Perm-Set Net: Learn to predict sets with unknown permutation and cardinality using deep neural networks

S. Hamid Rezatofighi, Roman Kaskman|arXiv (Cornell University)|2018. 05. 02.
Advanced Neural Network Applications참고 문헌 1인용 수 20
한 줄 요약

이 논문은 순열이 알려지지 않은 변수이고 개수도 변할 수 있는 집합을 예측할 수 있도록 하는 딥 러닝 프레임워크인 Deep Perm-Set Net을 소개한다. 이는 순열을 관측되지 않은 변수로 간주하고 교차 최적화를 통해 그 분포를 추정함으로써 이를 달성한다. 이 방법은 객체 검출 및 복잡한 CAPTCHA 작업에서 최신 기술 수준의 성능을 달성하며, 명시적인 규칙 없이 산술 유사 추론을 학습한다.

ABSTRACT

Many real-world problems, e.g. object detection, have outputs that are naturally expressed as sets of entities. This creates a challenge for traditional deep neural networks which naturally deal with structured outputs such as vectors, matrices or tensors. We present a novel approach for learning to predict sets with unknown permutation and cardinality using deep neural networks. Specifically, in our formulation we incorporate the permutation as unobservable variable and estimate its distribution during the learning process using alternating optimization. We demonstrate the validity of this new formulation on two relevant vision problems: object detection, for which our formulation outperforms state-of-the-art detectors such as Faster R-CNN and YOLO, and a complex CAPTCHA test, where we observe that, surprisingly, our set based network acquired the ability of mimicking arithmetics without any rules being coded.

연구 동기 및 목표

  • 기존 딥 네트워크가 객체 검출 및 기타 비전 작업에서 순서 없는, 크기가 변하는 출력인 집합을 다루는 데에 한계가 있다는 문제를 해결하기 위해.
  • 비최적화 처리 기법(예: 비최대 억제)에 의존하지 않고도 집합 예측을 위한 딥 네트워크의 엔드 투 엔드 학습을 가능하게 하기 위해.
  • 집합 원소의 알려지지 않은 순열을 관측되지 않은 변수로 모델링하고 학습 중 그 분포를 추정하기 위해.
  • 실세계 문제인 객체 검출 및 복잡한 CAPTCHA 해결과 같은 분야에서 프레임워크의 효과성을 입증하기 위해.
  • 네트워크가 명시적인 규칙을 코딩하지 않고도 집합 기반 작업에서 산술 유사 추론을 암묵적으로 학습할 수 있는지 보여주기 위해.

제안 방법

  • 모델은 집합 원소의 순열을 관측되지 않은 변수로 간주하고, 학습 중에 교차 최적화를 통해 그 분포를 추정한다.
  • 집합 예측 작업을 네트워크 파라미터와 잠재 순열 변수에 대한 동시 최적화 문제로 공식화한다.
  • 이 프레임워크는 이미지와 같은 구조적 입력에서 특징을 추출하기 위해 딥 네트워크 백본(예: ResNet-101)을 사용한다.
  • 학습 중에, 네트워크는 예측된 집합의 모든 가능한 순열을 고려하는 손실 함수를 최소화하며, 이는 이산 순열을 다룰 수 있는 미분 가능한 근사 기법을 사용한다.
  • 이 방법은 고정 크기나 순서가 정해진 표현이 필요 없이, 네트워크가 바운딩 박스나 숫자의 집합을 출력할 수 있도록 엔드 투 엔드 학습을 가능하게 한다.
  • 프레임워크는 예측된 원소와 진짜 값 간의 가장 가능성이 높은 순열을 학습함으로써 검출과 식별을 동시에 지원한다.

실험 결과

연구 질문

  • RQ1비최적화 처리 기법에 의존하지 않고도 순서가 정해지지 않은 변수 크기의 집합을 예측할 수 있도록 딥 네트워크를 훈련시킬 수 있는가?
  • RQ2집합 원소의 순열을 관측되지 않은 변수로 모델링하면 집합 예측 작업의 학습 성능을 향상시킬 수 있는가?
  • RQ3제안된 프레임워크는 명시적인 규칙 없이도 CAPTCHA 해결과 같은 작업에서 암묵적인 산술 유사 추론을 학습할 수 있는가?
  • RQ4고도의 가림 상태에서 Faster R-CNN과 YOLO와 같은 최신 기술 수준의 검출기와 비교해 모델의 성능은 어떠한가?
  • RQ5학습된 순열 분포가 유사하거나 모호한 인스턴스에서 주요 순서 패턴을 식별하는 데 도움이 될 수 있는가?

주요 결과

  • 제안된 Deep Perm-Set Net은 시뮬레이션 및 실제 데이터셋 모두에서 Faster R-CNN과 YOLO v2를 능가하며, 특히 고도의 가림 상태에서 뛰어난 성능을 보였다.
  • 유사한 외형을 가진 객체를 식별할 때 81.1%의 순열 정확도를 달성하여, 효과적인 인스턴스 수준의 대응 학습 능력을 입증했다.
  • CAPTCHA 테스트에서 모델은 숫자 합산 작업에서 95.2%의 정확도를 기록했으며, Faster R-CNN(31.05%)과 이중 단계 검출기-분류기 설정(59.28%)을 크게 능가했다.
  • Rezatofighi 등(2018)의 베이스라인 집합 네트워크는 수렴하지 못하고 모든 박스가 동일한 위치에 집중되는 열악한 출력을 생성하여, 순열을 명시적으로 모델링하는 것이 필수적임을 증명했다.
  • 모델는 산술 규칙을 명시적으로 프로그래밍하지 않아도 CAPTCHA 작업에서 산술 유사 추론을 모방하는 것을 학습했으며, 이는 구성적 일반화의 잠재적 탄생을 시사한다.
  • 비최대 억제와 같은 히우리스틱 단계 없이도 집합 예측을 위한 엔드 투 엔드 학습이 가능하므로, 다중 객체 추적과 같은 복잡한 작업에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.