QUICK REVIEW

[논문 리뷰] Latent Sequence Decompositions

William Chan, Yu Zhang|arXiv (Cornell University)|2016. 10. 10.

Speech Recognition and Synthesis인용 수 37

한 줄 요약

이 논문은 학습 중에 입력과 출력 시퀀스에 따라 변형 가능한 길이의 토큰 분해를 학습하는 프레임워크인 잠재 시퀀스 분해(Latent Sequence Decompositions, LSD)를 소개한다. LSD는 월스트리트저널 ASR에서 12.9%의 WER를 기록하여 문자 수준 기준선의 14.8%보다 향상되었고, 깊은 CNN 인코더와 결합할 경우 9.6%의 WER를 달성하여 종단간(end-to-end), 입력 기반의 시퀀스 분해 학습의 유용성을 입증한다.

ABSTRACT

We present the Latent Sequence Decompositions (LSD) framework. LSD decomposes sequences with variable lengthed output units as a function of both the input sequence and the output sequence. We present a training algorithm which samples valid extensions and an approximate decoding algorithm. We experiment with the Wall Street Journal speech recognition task. Our LSD model achieves 12.9% WER compared to a character baseline of 14.8% WER. When combined with a convolutional network on the encoder, we achieve 9.6% WER.

연구 동기 및 목표

고정된 결정론적 토큰 분해 방식의 한계를 해결하기 위해, 이는 종종 최적화되지 않으며 입력 컨텍스트에 영향을 받지 않는다.
모델이 단일으로 사전 정의된 분할에 의존하는 대신 잠재적 시퀀스 분해의 분포를 학습할 수 있도록 하기 위해.
입력 오디오와 출력 텍스트 양쪽에 적응하는 가변 길이 토큰(예: 워드피ece)을 허용함으로써 자동 음성 인식 성능을 향상시키기 위해.
유효한 분해를 단계적으로 샘플링하고 학습 중에 이를 근사적으로 통합하는 훈련 및 디코딩 방법을 개발하기 위해.
입력과 출력을 함께 고려한 분해 학습이 일반화 능력을 향상시키고 오류율을 낮추는 데 기여함을 입증하기 위해.

제안 방법

LSD는 출력 시퀀스를 학습된 사전에서 유래한 가변 길이 토큰으로 잠재적 분해로 모델링하며, 각 토큰은 문자의 n-그램 집합에서 선택된다.
훈련 중에 모델은 왼쪽에서 오른쪽으로 순차적으로 분해를 샘플링하며, 유효한 토큰 확장의 탐색과 이용 간 균형을 이루기 위해 ε-greedy 전략을 사용한다.
학습 중에 주어진 출력 시퀀스의 가능한 모든 분해에 대해 통합하며, 기울기 역전파를 위해 미분 가능한 근사를 사용한다.
테스트 시에는 빔 서치를 사용하여 가장 가능성 높은 출력 시퀀스와 그에 해당하는 분해를 디코딩한다.
이 프레임워크는 순서-순서 모델과 통합 가능하며, 잔차 연결과 배치 정규화를 갖춘 CNN과 같은 깊은 신경망 인코더와도 조합할 수 있다.
훈련 목표는 잠재적 분해 샘플링을 포함한 교차 엔트로피 손실이며, 일반화 성능 향상을 위해 가중치 노이즈를 적용한다.

실험 결과

연구 질문

RQ1고정된 분해에 의존하는 대신 분해의 분포를 학습함으로써 자동 음성 인식에서 순서-순서 모델링 성능을 향상시킬 수 있는가?
RQ2분해가 입력과 출력 시퀀스에 모두 의존할 경우, 출력 시퀀스에만 의존하는 분해보다 성능이 향상되는가?
RQ3워드피ece와 같은 가변 길이 토큰이 히우리스틱이나 외부 모델에 의해 사전에 정의되지 않고도 종단간으로 모델 내에서 학습될 수 있는가?
RQ4표준 ASR 벤치마크에서 LSD는 고정 토큰 기준선(예: 문자 수준 또는 단어 수준)과 비교해 WER 측면에서 어떻게 성능을 내는가?
RQ5깊은 CNN 같은 강력한 인코더 아키텍처와 LSD를 효과적으로 조합하여 성능을 추가로 향상시킬 수 있는가?

주요 결과

LSD 모델은 월스트리트저널 테스트 세트에서 12.9%의 WER를 기록하여 문자 수준 seq2seq 기준선의 14.8%보다 12.7% 상대적 향상률을 보였다.
깊은 합성곱 신경망 인코더와 결합할 경우 LSD 모델은 WER 9.6%를 달성하였으며, 동일한 기준선 대비 35.1% 상대적 향상률을 기록하였다.
모델은 동일한 출력 시퀀스에 대해 여러 가지 유효한 분해를 학습한다. 예를 들어 'cat'을 'c','a','t' 또는 'ca','t' 또는 'cat'으로 표현할 수 있다.
잠재적 분해 학습의 사용은 단어 수준 모델의 OOV 문제와 문자 수준 모델의 긴 시퀀스 길이 문제를 피할 수 있게 한다.
CTC나 HMM 기반 모델과 달리 마르코프 가정에 의존하지 않고도 다중 모odal 출력 분포를 성공적으로 학습한다.
결과는 입력 기반 분해 학습이 종단간 ASR에서 더 효율적이고 정확한 시퀀스 모델링을 가능하게 한다는 것을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.