[논문 리뷰] Enhanced Convolutional Neural Tangent Kernels
논문은 Local Average Pooling (LAP)과 패치 기반 사전 처리 접근법으로 CNTK/CNN-GP 성능을 향상시키고 CIFAR-10에서 비학습 커널 정확도 최상위 수준(최대 89%)에 도달하며 Fashion-MNIST에서 강력한 결과를 보인다.
Recent research shows that for training with $\ell_2$ loss, convolutional neural networks (CNNs) whose width (number of channels in convolutional layers) goes to infinity correspond to regression with respect to the CNN Gaussian Process kernel (CNN-GP) if only the last layer is trained, and correspond to regression with respect to the Convolutional Neural Tangent Kernel (CNTK) if all layers are trained. An exact algorithm to compute CNTK (Arora et al., 2019) yielded the finding that classification accuracy of CNTK on CIFAR-10 is within 6-7% of that of that of the corresponding CNN architecture (best figure being around 78%) which is interesting performance for a fixed kernel. Here we show how to significantly enhance the performance of these kernels using two ideas. (1) Modifying the kernel using a new operation called Local Average Pooling (LAP) which preserves efficient computability of the kernel and inherits the spirit of standard data augmentation using pixel shifts. Earlier papers were unable to incorporate naive data augmentation because of the quadratic training cost of kernel regression. This idea is inspired by Global Average Pooling (GAP), which we show for CNN-GP and CNTK is equivalent to full translation data augmentation. (2) Representing the input image using a pre-processing technique proposed by Coates et al. (2011), which uses a single convolutional layer composed of random image patches. On CIFAR-10, the resulting kernel, CNN-GP with LAP and horizontal flip data augmentation, achieves 89% accuracy, matching the performance of AlexNet (Krizhevsky et al., 2012). Note that this is the best such result we know of for a classifier that is not a trained neural network. Similar improvements are obtained for Fashion-MNIST.
연구 동기 및 목표
- 고정 커널을 갖는 이미지 분류에 대한 CNTK/CNN-GP의 한계를 조사한다.
- 커널 회귀에 데이터 증강을 효율적으로 통합하는 방법을 개발한다.
- CNTK/CNN-GP 정확도를 향상시키기 위한 Local Average Pooling (LAP) 및 패치 기반 사전 처리 기법을 제안한다.
- 대칭 군 하에서 보강된 커널과 데이터 증강 사이의 등가를 입증한다.
제안 방법
- CNTK/CNN-GP 동적 프로그래밍 형식에서 도출된 대칭 기반 풀링 변형으로서 Local Average Pooling (LAP)을 도입한다.
- LAP가 GAP의 전체 계산 비용 없이 로컬 번역 데이터 증강의 한 형태와 동등하다는 것을 보인다.
- Coates 등(2011)의 patch-based pre-processing 체계를 정의하고 활용하여 학습 패치로부터 무작위 합성곱 필터를 생성한다.
- LAP를 수평 반전 증강 및 커널 리지 회귀와 결합하여 CIFAR-10 및 Fashion-MNIST에서의 개선을 평가한다.
- GAP를 갖는 보강된 커널이 환원 패딩 하에서 전체 번역 데이터 증강에 해당함을 보여주고, 로컬 아날로그로서 LAP를 도출한다.
실험 결과
연구 질문
- RQ1LAP를 통해 커널 계산에 데이터 증강을 통합함으로써 CNTK/CNN-GP 성능을 크게 향상시킬 수 있는가?
- RQ2CNTK/CNN-GP에서 Local Average Pooling (LAP)이 Global Average Pooling (GAP) 및 풀링 없음과 비교하여 어떤 차이가 있는가?
- RQ3무작위 패치를 사용하는 패치 기반 사전 처리 단계가 비학습 커널 방법을 CIFAR-10에서 학습된 CNN과 일치하도록 끌어올릴 것인가?
- RQ4다양한 네트워크 깊이와 데이터셋(CIFAR-10, Fashion-MNIST)에서 LAP와 수평 반전 증강의 효과는 무엇인가?
주요 결과
- LAP를 사용하는 CNN-GP가 CIFAR-10에서 81% 정확도를 달성하여 이전의 최고 커널 예측자보다 약 3% 포인트 높다.
- LAP와 수평 반전 증강을 더한 CNN-GP는 CIFAR-10에서 89% 정확도에 도달하여 AlexNet과 같은 성능을 비학습 상태로 달성한다.
- LAP가 적용된 CNTK 및 CNN-GP는 CIFAR-10 및 Fashion-MNIST에서 기본 CNTK/CNN-GP 대비 일관되게 향상된다(두질적 실험에서).
- Coates 등(2011)의 방법으로 무작위 패치를 필터로 사용하고 LAP 및 수평 반전을 결합하면 상당한 이득이 생겨 CIFAR-10에서 최대 88.92%까지 달성되며( AlexNet와 일치 ), 비심층 네트워크 설정에서.
- Fashion-MNIST에서 LAP는 CNTK/CNN-GP 성능을 향상시키고 중간 정도의 c 값에서 최상의 결과를 보이며, 수평 반전 증강은 CIFAR-10에 비해 영향이 덜하다.
- 두 번째 접근 방식으로 무작위 패치, ZCA, 평균 중앙정등을 포함한 추가 사전 처리를 결합하면 Coates et al. 기준선을 넘어 CIFAR-10 성능이 더 높아져 AlexNet 수준의 결과에 근접한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.