QUICK REVIEW

[논문 리뷰] Generalisation in humans and deep neural networks

Robert Geirhos, Carlos R. Medina Temme|arXiv (Cornell University)|2018. 08. 27.

Infrared Target Detection Methodologies참고 문헌 72인용 수 239

한 줄 요약

이 연구는 세 가지 사전 학습된 DNN(ResNet-152, GoogLeNet, VGG-19)과 열두 가지 이미지 저하에 대해 인간 객체 인식의 강건성을 비교하고, 인간이 보이지 않는 변형에 더 잘 일반화함을 보여주며, 왜곡에 직접적으로 DNN을 학습시키면 훈련된 왜곡 안에서만 강한 성능을 내고 새로운 왜곡에 대한 일반화는 낮다.

ABSTRACT

We compare the robustness of humans and current convolutional deep neural networks (DNNs) on object recognition under twelve different types of image degradations. First, using three well known DNNs (ResNet-152, VGG-19, GoogLeNet) we find the human visual system to be more robust to nearly all of the tested image manipulations, and we observe progressively diverging classification error-patterns between humans and DNNs when the signal gets weaker. Secondly, we show that DNNs trained directly on distorted images consistently surpass human performance on the exact distortion types they were trained on, yet they display extremely poor generalisation abilities when tested on other distortion types. For example, training on salt-and-pepper noise does not imply robustness on uniform white noise and vice versa. Thus, changes in the noise distribution between training and testing constitutes a crucial challenge to deep learning vision systems that can be systematically addressed in a lifelong machine learning approach. Our new dataset consisting of 83K carefully measured human psychophysical trials provide a useful reference for lifelong robustness against image degradations set by the human visual system.

연구 동기 및 목표

훈련 분포를 넘어서는 다양한 이미지 왜곡에 대해 인간과 현행 DNN이 일반화하는 방식의 평가.
12가지 왜곡 유형에서 인간과 DNN 간의 강건성 차이 정량화.
왜곡된 이미지에 대해 DNN을 훈련시키는 것이 교차 왜곡 일반화에 미치는 영향을 평가.
이미지 저하에 대한 평생 강건성을 위한 인간-로봇 벤치마크 데이터셋을 신중하게 측정하여 제공한다.

제안 방법

12가지 왜곡에서 16-클래스 ImageNet 기반 16-entry-level 카테고리 과제를 대상으로 인간과 세 개의 사전 학습 DNN(ResNet-152, GoogLeNet, VGG-19)을 비교한다.
피드백을 제한하기 위해 인간에게 제어된 200 ms 프레젠테이션 시간과 1/f 잡음 마스크를 사용한다.
색상 변화, 잡음(균일 및 소금-후추), 흐림/하이패스/로우패스 필터, 대비, 위상 잡음, Eidolon 왜곡, 회전 등 왜곡에 대한 성능을 평가한다.
왜곡된 16-클래스 ImageNet 이미지에서 네트워크를 처음부터 학습시켜 왜곡 특이적 강건성 및 교차 왜곡 일반화를 시험한다.
오류 패턴과 편향을 특징짓기 위해 분류 정확도와 반응 분포 엔트로피를 분석한다.

실험 결과

연구 질문

RQ1훈련 중에 보지 못한 다양한 이미지 저하에 대해 인간과 DNN의 강건성 차이는 어떠한가?
RQ2왜곡에 대해 학습된 DNN은 다른 보지 못한 왜곡에 일반화하는가?
RQ3왜곡된 이미지에서의 학습이 여러 왜곡에 걸친 강건성을 향상시키는가, 학습된 것들에 국한되지 않는가?
RQ4저하된 조건에서 인간과 DNN의 오류 패턴 차이는 무엇인가?

주요 결과

신호 강도가 감소할수록 인간이 대부분의 왜곡에서 DNN보다 더 강건하다.
왜곡에 대해 학습된 DNN은 학습된 정확한 왜곡에는 탁월하지만 다른 왜곡으로의 일반화는 좋지 않다.
왜곡에 대한 학습이 보지 못한 왜곡으로의 강건성을 일관되게 transfer하는 경우가 드물며, 더 긴 학습이나 다른 전략이 필요할 수 있다.
DNN은 예측에서 왜곡 특이적인 편향을 보인다(예: 강한 균일 잡음 하에서 병(B) 편향; 위상 잡음 하에서 개/새 편향).
모든 왜곡을 제외하고 하나를 남긴 상태로 학습했을 때, 네트워크는 그 여덟 개 왜곡에서 높은 정확도에 도달하지만 남겨둔 왜곡(소금-후추 및 균일 잡음)에서는 거의 확률에 가깝다.
왜곡별로 전용 학습 규칙은 학습된 왜곡에서의 격차를 해소할 수 있지만 광범위하고 교차 왜곡에 대한 강건성 달성에는 실패한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.