[논문 리뷰] QTI Submission to DCASE 2021: residual normalization for device-imbalanced acoustic scene classification with efficient design
이 논문은 Residual Normalization, BC-ResNet-Mod 아키텍처, spectrogram-to-spectrogram 디바이스 번역, 가지치기, 양자화, 지식 증류를 통한 모델 압축으로 다중 디바이스 데이터에서의 불균형을 다루는 효율적인 ASC 시스템을 제시하며, 적은 파라미터 수로도 강한 디바이스 간 일반화 성능을 보인다.
This technical report describes the details of our TASK1A submission of the DCASE2021 challenge. The goal of the task is to design an audio scene classification system for device-imbalanced datasets under the constraints of model complexity. This report introduces four methods to achieve the goal. First, we propose Residual Normalization, a novel feature normalization method that uses instance normalization with a shortcut path to discard unnecessary device-specific information without losing useful information for classification. Second, we design an efficient architecture, BC-ResNet-Mod, a modified version of the baseline architecture with a limited receptive field. Third, we exploit spectrogram-to-spectrogram translation from one to multiple devices to augment training data. Finally, we utilize three model compression schemes: pruning, quantization, and knowledge distillation to reduce model complexity. The proposed system achieves an average test accuracy of 76.3% in TAU Urban Acoustic Scenes 2020 Mobile, development dataset with 315k parameters, and average test accuracy of 75.3% after compression to 61.0KB of non-zero parameters. We extend this work to [1].
연구 동기 및 목표
- 다중 디바이스 데이터에서의 ASC에서 디바이스 불균형 및 낮은 모델 복잡도 문제를 해결한다.
- 제한된 수용영역을 갖는 효율적인 CNN 아키텍처를 음향 현장 분류에 맞춰 개발한다.
- Residual Normalization을 도입해 판별 정보를 보존하면서 디바이스 일반화를 향상시킨다.
- 도메인 차이를 완화하기 위해 spectrogram-to-spectrogram 디바이스 번역으로 학습 데이터를 보강한다.
- 가지치기, 양자화, 지식 증류를 통해 대규모 성능 손실 없이 모델 크기를 압축한다.
제안 방법
- BC-ResNet-Mod를 제안한다. 이는 제한된 수용영역과 시계열 해상도를 제어하기 위한 최대 풀링을 갖춘 수정된 Broadcasting 잔차 네트워크이다.
- Residual Normalization(ResNorm)을 도입한다. 이는 잔차 단축 경로를 가진 주파수별 인스턴스 정규화로 유용한 도메인 정보를 보존한다.
- Subspectral Normalization이 적용된 U-Net 기반 디바이스 번역기를 도입해 데이터를 증강하기 위해 스펙트로그램 간 디바이스 간 번역을 수행한다.
- 세 가지 압축 기법—일회성 규모 가지치기, 양자화 인식 학습(QAT), 교사 네트워크로부터의 지식 증류—을 적용해 정확도 손실 없이 모델 크기를 줄인다.
실험 결과
연구 질문
- RQ1Residual Normalization이 디바이스 불균형 ASC 데이터셋에서 보이지 않는 디바이스로의 일반화를 어떻게 개선할 수 있는가?
- RQ2제한된 수용영역과 최대 풀링이 ASC용 BC-ResNet 변형의 정확도와 효율성에 어떤 영향을 미치는가?
- RQ3디바이스 번역 및 데이터 보강이 여러 디바이스 간의 도메인 차이를 줄일 수 있는가?
- RQ4가지치기, 양자화, 지식 증류가 저매개변수 ASC 모델의 성능 및 압축에 어떤 영향을 미치는가?
주요 결과
| Method | #Param | A | B | C | S1 | S2 | S3 | S4 | S5 | S6 | Overall | Std. Dev |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BC-ResNet-Mod-1 | 8.1k | 73.1 | 61.2 | 65.3 | 58.2 | 57.3 | 66.2 | 51.5 | 51.5 | 46.3 | 58.9 | 0.8 |
| BC-ResNet-Mod-1 + Global FreqNorm | 8.1k | 73.9 | 60.9 | 65.5 | 60.2 | 57.9 | 67.9 | 50.2 | 54.3 | 49.4 | 60.0 | 0.9 |
| BC-ResNet-Mod-1 + FreqIN | 8.1k | 69.9 | 63.5 | 60.0 | 65.3 | 66.7 | 67.6 | 65.9 | 64.9 | 62.0 | 65.1 | 0.6 |
| BC-ResNet-Mod-1 + Pre-ResNorm | 8.1k | 75.1 | 68.9 | 67.0 | 66.0 | 63.9 | 69.3 | 63.4 | 66.9 | 63.6 | 67.1 | 0.8 |
| BC-ResNet-Mod-1 + ResNorm | 8.1k | 76.4 | 65.1 | 68.3 | 66.0 | 62.2 | 69.7 | 63.0 | 63.0 | 58.3 | 65.8 | 0.7 |
| CP-ResNet, c=64 | 899k | 77.0 | 69.3 | 69.6 | 70.3 | 68.2 | 70.9 | 62.7 | 63.9 | 58.1 | 67.8 | - |
| BC-ResNet-8, num SSN group=4 | 317k | 77.9 | 70.4 | 72.4 | 69.5 | 68.3 | 69.8 | 66.3 | 64.1 | 58.6 | 68.6 | 0.4 |
| BC-ResNet-Mod-8 | 315k | 80.7 | 72.8 | 74.4 | 71.4 | 68.7 | 71.0 | 62.2 | 65.3 | 59.4 | 69.5 | 0.3 |
| BC-ResNet-Mod-8 + Pre-ResNorm | 315k | 80.8 | 73.7 | 73.0 | 74.0 | 72.9 | 77.8 | 73.3 | 72.1 | 71.0 | 74.3 | 0.3 |
| BC-ResNet-Mod-8 + ResNorm | 315k | 81.3 | 74.4 | 74.2 | 75.6 | 73.1 | 78.6 | 73.0 | 74.0 | 72.7 | 75.2 | 0.4 |
| BC-ResNet-Mod-8 + ResNorm, Device Translator | 315k | 80.5 | 74.4 | 73.9 | 76.0 | 73.2 | 78.5 | 74.1 | 74.1 | 73.6 | 75.4 | 0.3 |
| BC-ResNet-Mod-8 + ResNorm, 300epoch, KD | 315k | 82.6 | 75.6 | 74.7 | 77.0 | 74.2 | 78.7 | 75.1 | 74.8 | 73.4 | 76.3 | 0.8 |
| + model compress | - | 82.0 | 73.8 | 74.3 | 76.2 | 73.2 | 78.8 | 73.8 | 72.8 | 73.3 | 75.3 | 0.8 |
- ResNorm을 갖춘 BC-ResNet-Mod-8이 강력한 기준선의 약 3분의 1 파라미터 수로 TAU 2020 Mobile 개발 데이터에서 평균 테스트 정확도 75.2%를 달성한다.
- ResNorm의 적용은 Global FreqNorm 및 FreqIN과 같은 기준선 대비 이미 본 디바이스에서의 성능과 보이지 않는 디바이스 일반화 모두를 개선한다.
- 스펙트로그램-대-스펙트로그램 번역을 통한 디바이스 번역은 디바이스 간 성능 차이를 줄이고 학습에 사용될 때 도메인 일반화를 향상시킨다.
- 교사 네트워크와 8비트 양자화로 지식 증류를 수행하고 8비트 컨볼루션 가중치를 사용하며 122 KB 총 크기로 공식 분할에서 평균 정확도 76.3%를 달성하고 89% 가지치기 비율을 달성할 수 있으며 모델 압축이 가능하다.
- 제안된 BC-ResNet-Mod-8 with ResNorm은 개발 세트에서 Baseline CP-ResNet 및 BC-ResNet-8 변형에 비해 전체 정확도에서 현저히 우수하다.
- 최종 압축 모델(KD + 가지치기 + 양자화)은 TAU 2020 Mobile 개발 구성에서 121.9 KB 크기로 전체 정확도 75.3%를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.