QUICK REVIEW

[논문 리뷰] Autosegmental Neural Nets: Should Phones and Tones be Synchronous or Asynchronous?

Jialu Li, Mark Hasegawa‐Johnson|arXiv (Cornell University)|2020. 07. 28.

EEG and Brain-Computer Interfaces참고 문헌 31인용 수 5

한 줄 요약

이 논문은 CTC 기반 신경망을 사용한 다국어 및 교차 언어형 엔드 투 엔드 ASR에서 음소와 억양의 동기화 및 이방식 모델링을 평가한다. 공동 음소-억양 모델링이 통합 오류율을 감소시키는 반면, 별도의 억양 타이어는 특히 공통된 억양 표현을 공유하는 다국어 설정에서 더 낮은 억양 오류율을 제공하는 것으로 나타났다.

ABSTRACT

Phones, the segmental units of the International Phonetic Alphabet (IPA), are used for lexical distinctions in most human languages; Tones, the suprasegmental units of the IPA, are used in perhaps 70%. Many previous studies have explored cross-lingual adaptation of automatic speech recognition (ASR) phone models, but few have explored the multilingual and cross-lingual transfer of synchronization between phones and tones. In this paper, we test four Connectionist Temporal Classification (CTC)-based acoustic models, differing in the degree of synchrony they impose between phones and tones. Models are trained and tested multilingually in three languages, then adapted and tested cross-lingually in a fourth. Both synchronous and asynchronous models are effective in both multilingual and cross-lingual settings. Synchronous models achieve lower error rate in the joint phone+tone tier, but asynchronous training results in lower tone error rate.

연구 동기 및 목표

다국어 및 교차 언어형 엔드 투 엔드 ASR에서 음소와 억양을 동기화로 모델링할 것인지, 이방식으로 모델링할 것인지에 대해 조사하기 위해.
다국어 간 공동 음소 및 억상 인식을 위한 다양한 CTC 기반 음향 모델 아키텍처의 효과성을 평가하기 위해.
다국어 간 공통된 억양 표현이 자원이 적은 환경에서 성능 향상에 기여하는지 확인하기 위해.
특히 억양 타이어 설계, 특히 억양 타겟의 표준화가 다국어 및 교차 언어형 ASR 성능에 미치는 영향을 분석하기 위해.
네 가지 다른 모델 구성에 대해 단일 언어, 다국어, 교차 언어 적응 성능을 비교하기 위해.

제안 방법

네 가지 CTC 기반 엔드 투 엔드 ASR 모델을 학습시켰다: 공동 음소-억양 출력 타이어를 가진 모델, 별도의 음소 및 억양 타이어를 가진 모델, 음소, 억양, 공동 타이어를 포함한 세 개의 타이어를 가진 모델, 모든 언어에서 억양 타겟을 표준화한 모델.
모든 모델은 공통된 언어 독립형 인코더(bLSTM×3 + 완전 연결층)를 사용하고, 이후 언어별 소프트맥스 레이어를 적용한다.
CTC 손실은 각 출력 타이어별로 별도로 적용되며, 빈 치환 기능은 표준 CTC 정렬 절차에 따라 처리된다.
다국어 학습은 세 언어(Mandarin, Cantonese, Vietnamese)에서 수행되었고, 교차 언어 적응은 최소한의 데이터로 라오어에서 테스트되었다.
편집 거리 기반으로 음소 시퀀스에 대해 오류율을 계산하였으며, 경음, 장음, 음소, 억양에 대해 별도의 메트릭을 사용하였다.
기본 주파수(F0) 입력이 음운 및 억양 인식 성능에 미치는 영향을 평가하기 위한 추가 실험을 수행하였다.

실험 결과

연구 질문

RQ1다국어 및 교차 언어형 ASR에서 공동 출력 타이어를 사용한 음소와 억상의 동기화 모델링이 이방식 모델링보다 전체 오류율을 감소시키는가?
RQ2음소와 억상에 대해 별도의 출력 타이어를 사용하면, 특히 다국어 설정에서 공동 모델링보다 더 낮은 억양 오류율을 달성할 수 있는가?
RQ3모든 언어에서 억양 타겟을 표준화하면 자원이 적은 환경에서 교차 언어 전이 성능이 향상되는가?
RQ4F0 특징의 포함 여부가 다국어 및 교차 언어 설정에서 경음, 장음, 음소, 억상 인식 정확도에 어떤 영향을 미치는가?
RQ5다양한 모델 아키텍처를 사용할 때 공동 음소-억상 인식과 독립된 억상 인식 간에 성능 상충 관계가 존재하는가?

주요 결과

공동 음소-억상 출력 타이어를 사용한 동기화 모델링(Model 1)이 다국어 및 교차 언어 설정에서 가장 낮은 통합 오류율(JER)을 기록하였다.
별도의 억양 타이어를 사용한 이방식 모델링(Model 2)이 다국어 설정에서는 가장 낮은 억양 오류율(TER)을 기록하였지만, 단일 언어나 교차 언어 설정에서는 그렇지 않았다.
모든 언어에서 억양 타겟을 여섯 개의 기호로 표준화한 모델 4는 다국어 설정에서 가장 낮은 TER를 기록하였으며, 더 큰 억양 알파벳을 사용한 모델들보다 뛰어난 성능을 보였다.
교차 언어 적응에서 모델 1이 라오어에서 가장 낮은 JER을 기록하여, 공동 모델링이 최소한의 적응 데이터로도 효과적임을 시사하였다.
경음 및 장음 오류율은 공동 출력 타이어를 사용할 때 항상 가장 낮았으며, 특히 F0 특징이 포함된 경우 두드러졌다.
억양 인식 정확도는 별도의 억양 타이어를 사용했을 때 가장 높았으며(라오어에서는 모델 2, 다국어에서는 모델 4), 이는 독립된 억양 모델링이 비록 통합 오류율은 높지만 TER 향상에 기여함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.