QUICK REVIEW

[논문 리뷰] Recent Developments on ESPnet Toolkit Boosted by Conformer

Pengcheng Guo, Florian Boyer|arXiv (Cornell University)|2020. 10. 26.

Speech Recognition and Synthesis참고 문헌 31인용 수 40

한 줄 요약

이 논문은 ESPnet 내 Conformer 아키텍처를 ASR, ST, SS, TTS로 확장하고, 여러 공개 코퍼스에서 Transformer 대비 일관된 이득을 보이며 재현 가능한 레시피와 학습 팁을 제공한다.

ABSTRACT

In this study, we present recent developments on ESPnet: End-to-End Speech Processing toolkit, which mainly involves a recently proposed architecture called Conformer, Convolution-augmented Transformer. This paper shows the results for a wide range of end-to-end speech processing applications, such as automatic speech recognition (ASR), speech translations (ST), speech separation (SS) and text-to-speech (TTS). Our experiments reveal various training tips and significant performance benefits obtained with the Conformer on different tasks. These results are competitive or even outperform the current state-of-art Transformer models. We are preparing to release all-in-one recipes using open source and publicly available corpora for all the above tasks with pre-trained models. Our aim for this work is to contribute to our research community by reducing the burden of preparing state-of-the-art research environments usually requiring high resources.

연구 동기 및 목표

Conformer를 다양한 엔드-투-엔드 음성 작업(ASR, ST, SS, TTS)으로 확장하고 Transformer와 벤치마킹한다.
학습률, 커널 크기, 아키텍처 등 실용적인 학습 가이드와 재현 가능한 레시피를 제공한다.
공개 코퍼스에 대해 잘 학습된 모델을 제공하여 연구에서 최첨단 실험의 진입장벽을 낮춘다.

제안 방법

Conformer 인코더를 설명한다( MHSA, CONV, 두 FFN, pre-norm으로 구성된 Conformer 블록).
Transformer-XL의 상대 위치 인코딩을 사용한다.
반 스텝 FFN으로 MHSA와 CONV를 샌드위치하고 Macaron-Net 스타일을 적용하며, 드롭아웃이 있는 계층 정규화를 사용한다.
ASR 및 ST 작업을 위해 Conformer 인코더와 Transformer 디코더를 결합한다.
공동 CTC-어텐션 목표와 선택적 LM 재스코어링으로 학습한다.
25개의 ASR 코퍼스, 하나의 ST 코퍼스, 하나의 SS 코퍼스, 및 세 개의 TTS 코퍼스에 대해 평가하고 광범위한 애블레이션을 수행한다.

실험 결과

연구 질문

RQ1다양한 엔드투엔드 음성 작업과 코퍼라에서 Conformer가 지속적으로 Transformer를 능가하는가?
RQ2ASR, ST, SS, TTS에서 Conformer의 성능을 극대화하는 학습 팁과 아키텍처 선택은 무엇인가?
RQ3Decoder 없이도 Conformer 기반 CTC/Transducer 변형이 이점을 제공하는가?
RQ4저자원 및 다중 화자 시나리오에서 Conformer의 성능은 Transformer과 어떻게 다른가?
RQ5재현 가능한 ESPnet2 레시피와 사전 학습 모델이 커뮤니티의 연구를 어떻게 가속화할 수 있는가?

주요 결과

Conformer는 17개의 오픈 소스 ASR 코퍼스 중 14개에서 Transformer를 능가하고, 여러 데이터셋에서 최첨단 결과를 달성한다.
Conformer는 WSJ-2mix(다중 화자)에서 Transformer 대비 약 7% 상대적 개선을 보인다.
저자원 언어에서 강한 이득을 제공한다(8개 언어에서 Transformer 대비 15% 이상 상대적 개선).
순수 Conformer-CTC 및 Conformer-Transducer 변형이 Transformer 베이스라인보다 개선을 보인다.
음성 번역에서 Fisher-CallHome Spanish 데이터셋에서 Transformer 대비 BLEU를 약 10% 상대적으로 향상시킨다.
Conformer-uPIT 기반 SS 및 Conformer 기반 TTS가 Transformer 기반 시스템에 대해 일관된 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.