Speech Recognition with Sequence to Sequence Models

Information

Title

STATE-OF-THE-ART SPEECH RECOGNITION WITH SEQUENCE TO SEQUENCE MODELS

Author

Chung-Cheng Chiu

Affiliation

Google

Link

주요 기술

Word Piece Models [arxiv]
Listen, Attend and Spell (LAS) [arxiv]

Description

Abstract

Attention 기반의 encoder-decoder 구조를 제안
- Listen, Attend, and Spell (LAS)
- 한 네트워크 안에 acoustic, pronunciation, language model을 포함하는 네트워크
이전 논문에서는
- 받아쓰기 분야 (dictation task)에서 state-of-the-art ASR과 필적하는 결과를 보여줌
- 음성 검색 (voice search)과 같은 분야에서는 뚜렷한 결과를 보여주지 못함
이 논문에서는
- LAS model의 유의미한 성능 향상을 보여줌
  - 12,500 시간의 음성 검색 부분
  - WER 가 9.6% 에서 5.2%로 상승
- 구조적인 관점에서 다음의 기술을 사용
  - Grapheme 대신 Wordpiece 모델을 사용함
  - Multi-head attention 구조를 제안
- 최적화 관점에서 다음의 기술을 사용
  - Synchronous training
  - Scheduled sampling
  - Label smoothing
  - Minimum word error rate

Introduction

Sequence-to-sequence 모델의 인기가 늘어감
- 기존의 ASR 시스템의 모델을 하나의 네트워크로 표현
  - Acoustic model (AM)
  - Pronunciation model (PM)
  - Language model (LM)
- 다양한 모델이 소개됨
  - Recurrent Neural Netork Tranducer (RNN-T) [arxiv]
  - Listen, Attend and Spell (LAS) [arxiv]
  - Neural Tranducer [arxiv]
  - Monotonic Alignments [arxiv]
  - Recurrent Neural Aligner (RNA) [pdf]
- 위에 소개된 모델들은
  - 좋은 성능을 보여줌
  - 기존의 HMM 기반의 시스템을 대체 하기엔 어려움
- Sequence-to-sequence 모델의 장점으로 다음의 모듈들을 필요로 하지 않음
  - Finite state tranducer (FST)
  - Lexicon
  - Text normalization
이 논문의 목적은
- 음성 검색 부분에서 기존의 ASR system의 성능을 능가
  - 다양한 구조와 최적화를 수행
이전 논문에서는 LAS 모델이 다른 RNN-T [pdf] 와 같은 sequence-to-sequence 모델과 비교하여 성능이 향상된 것을 보여줌
이 논문에서는 LAS 모델 자체의 성능향상에 초점을 둠
- LAS 모델은 싱글 네트워크 이며 다음과 같은 구조로 되어있음
  - Encoder는 기존의 acoustic 모델과 비슷한 역할
  - Attender는 alignment 모델과 비슷한 역할
  - Decoder는 기존의 language 모델과 비슷한 역할
- 구조적인 측면으로
  - Multi-head attention을 결합 [arxiv]
    - Encoder feature의 중복 위치를 가능하게 함
  - Word piece models (WPM)을 사용 [arxiv]
    - 번역에 적용됨
    - 최근에는 음성에도 적용됨 (RNN-T, LAS)
    - WPM을 사용하여 13% 정도의 상대 성능 개선 효과를 갖음 (WER)
- 최적화 측면으로
  - Minimum word error rate (MWER)를 사용 [arxiv]
  - Scheduled sampling (SS) [arxiv]
    - 학습하는 동안 ground truth 대신 이전에 인식한 label을 사용
  - Label smoothing
    - 비전 분야에 적용 [arxiv]
    - 음성 분야에 적용 [arxiv]
  - 다음의 최적화 방법을 사용
    - Asynchronous training [pdf]
    - Synchronous training [arvix]
  - 세가지 방법을 사용한 성능향상
    - 27.5% 의 상대 성능 개선 효과 (WER)
- 추가적으로
  - Language Model을 이용해 rescoring 을 수행
  - 3.4% 정도의 상대 성능 개선

System Overview

Basic LAS Model

시스템 구성도
- Listener는 Encoder 부분을 의미함
  - 기존의 음성인식 방법의 acoustic model 부분
  - 입력특징을 고수준의 특징 $\mathbf{h}^{enc}$ 로 변환함
- Encoder의 출력 (attention context)은 출력 을 예측하는데 사용됨
  - Dynamic Time Warping (DTW)과 비슷한 역할을 함
- Speller는 Decoder 부분을 의미함
  - Attender의 출력 (attention context) $\mathbf{c}_{i}$ 를 이용함
  - Sub-word unit 의 확률 분포 를 예측하기 위해 다음을 사용
    - 입력 $\mathbf{x}$
    - 이전에 예측된 sub-word unit $y_{i-1}$

Structure Improvements

Wordpiece models

기존의 방법은 AM, PM, LM을 사용
- Grapheme (characters)를 출력으로 사용
- 단점으로는 out of vocabulary (OOV)가 발생함
대안으로 문맥에 독립적인 음소들(phonemes)을 사용 [page]
- 기존 방법대로 음소를 사용하면 PM, LM 이 요구됨
- 이 논문의 실험에서는 성능 향상에 도움이 안됨
WPM의 장점
- 일반적인 word-level LM은 grapheme-level LM과 비교하여 perplexity가 낮음
- Wordpiece가 grapheme보다 강력한 모델이 될 수 있음
- Longer unit이 LSTM의 메모리를 효율적으로 사용할 수 있게 함
- Longer unit이 inference 속도를 향상시킴 (매우 유의미)
- RNN-T와 같은 sequence-to-sequence 모델 보다 WPM이 좋은 성능을 보여줌
WPM의 특징 [pdf]
- WPM의 길이는 grapheme부터 전체 단어까지의 길이를 갖는 sub-word
- WPM을 사용하면 out-of-vocabulary 문제가 없음
- 학습셋에 대해 maximum likelihood가 최대가 되는 language model임
- Word의 boundary는 문맥에 독립적이며 greedy algorithm을 사용하여 결정함

Multi-headed attention

Multi-headed attention 개념도
Multi-head attention (MHA)은 기계번역에서 처음 사용됨 [pdf]
이 논문에서는 MHA를 음성에 사용
기존의 attention 방법을 multiple head를 갖도록 확장
- 각각의 head는 encoder의 output에 다른 역할을 하도록 함
- Decoder가 정보 검색을 쉽게 할 것이라 가정
기존의 attention 방법은 attention에서 output을 정확하게 pick하기 위해 명확한 결과를 주어야함
MHA 방법은 encoder의 부담을 줄여주고 음성과 잡음을 구별짓는 효과가 있다고 가정

Optimization Improvements

Mimimum Word Error Rate (MWER) Training

기존의 ASR system에서는
- State-level minimum Bayes risk (sMBR) [pdf]와 같은 sequence level criterion을 최적화함
- CE, CTC 을 덧붙여 학습
- 최적화할 metric이 실제 측정할 metric (WER)과 연관이 없음
이 논문에서는
- Minimum word error rate (MWER)에 초점을 맞춤 [arxiv]
- MWER은 word error를 최소화하는 목적 함수를 설정
- Loss function은 다음과 같음
  - $\mathbf{y}$ : hypothesis
  - $\mathbf{y^{ * }}$ : ground-truth label sequence
- 위의 방법은 다음과 같은 방법으로 근사 가능
  - Sampling [pdf]
  - Summation N-best list [pdf]
- 이 논문에서는 후자의 방법이 더 효과적임
- 위의 식은 각각의 결과에 weighted summation으로 근사 가능함
  - $NBest(x, N) = {y_{1}, \cdots, y_{n}}$ : 입력 $\mathbf{x}$ 를 beam-search decoder에 의해 계산된 결과 [arxiv]
  - $\hat{P}(y_{i} \vert x) = \frac{P(y_{i} \vert x)}{\sum_{y_{i} \in NBest(x, N)} P(y_{i} \vert x)}$ 로 정의된다.

Scheduled Sampling

Decoder를 학습시키는 방법
- Teacher forcing
  - 이전의 예측값으로 ground-truth label을 사용
  - 초반에 decoder 빠르게 학습시키는데 도움이 됨
  - 학습과 예측에 차이가 발생한다.
- Scheduled Sampling [arvix]
  - 이전 예측의 확률 분포로 부터 샘플링
  - 다음 label을 예측할 때, 결과 token을 이전 token으로 사용
- 이 논문에서는
  - 학습 시작 시점에는 teacher force 방법을 사용
  - 특정 시점 (모델의 예측 확률이 0.4)이 되면 sampling 방법의 확률을 선형으로 증가시킴
  - 확률이 0.4가 되는 시점
    - Asynchronous : 100만
    - Synchronous : 10만

Asynchronous and Synchronous Training

Asynchronous training [pdf]
Synchronous training [arxiv]
두가지 방법 모두 학습 초기에 높은 gradient variance가 문제가 됨
- Asynchronous 학습은 초기에 모든 replica를 사용하지 않고 점차적으로 늘림
- Synchronous 학습은 learning rate ramp up과 gradient norm tracker 방법을 사용

Label Smoothing

Label smoothing은 정규화 방법 [arxiv]
- Model이 과적합되지 않도록 수행
- Ground-truth label의 분포가 uniform distribution이 되도록 함

Second-Pass Rescoring

LAS 모델의 decoder는 language model과 같은 역할을 함
- 학습 데이터의 transcript에 존재하는 단어만 다룰 수 있음
- 외부 LM을 사용하는 경우 오디오 데이터가 없는 단어에 대해 예측할 수 있음
- 외부 LM은 다양한 도메인으로 부터 얻은 텍스트로 학습한 5-gram LM
- 특정 도메인 LM은 Bayesian-interpolation을 사용 [pdf]
- Beam search를 통해 얻은 N-best hypotheses로 부터 다음과 같이 transcript $\mathbf{y}^{ * }$ 을 정함
  - $P_{LM}$ : 외부 LM의 확률
  - $len(y)$ : $\mathbf{y}$ 의 단어 수
  - $\lambda, \gamma$ : 학습 셋으로 정해지는 파라미터

Experimental Details

Corpus 정보
- 12,500 시간
- 15,000,000 영어 발화
- Noise, Reverberation 추가
  - 0dB ~ 30dB
  - 평균 12dB
  - YouTube, daily life noise environment
- Feature extraction
  - 80 dimensional log-Mel
  - 25ms window
  - 10ms shift
  - Stacked 3 frame to left
- Encoder network
  - 5 long short-term memory (LSTM)
  - Unidirectional LSTM [pdf]
    - 1,400 hidden unit
  - Bidirectional LSTM [pdf]
    - 2,048 hidden unit (1,024 hidden unit per direction)
- Attention [arxiv]
  - Single-headed attention
  - Multi-headed attention
- Decoder
  - 2 layer LSTM
    - 1,024 hidden unit per layer

Results

Structure Improvements

구조 변화에 따른 성능 변화
- LAS model + grapheme (E1)
- LAS model + WPM (E2)
- LAS model + WPM + MHA (E3)

Optimization Improvements

최적화에 따른 성능 변화
- E3 + synchronous training (E4)
- E4 + scheduled sampling (E5)
- E5 + label smoothing (E6)
- E6 + MWER training (E7)

Incoroperating Second-Pass Rescoring

Second-Pass rescoring 을 적용
- E7 + LM rescoring (E8)
  - 상대 성능으로 3.4% 상승

Unidirectional vs. Bidirectional Encoders

제안한 방법이 모델 구조에 상관없이 성능 향상을 가져옴

Comparison with the Convolutional Systems

State-of-the-art model [pdf]과 비교하여 성능 향성

Conclusion

장점
- AM, PM, LM을 한 네트워크로 만듦
- lexicon, text normalization 모듈을 필요로 하지 않음
한계
- Unidirectional LAS 시스템은 전체 발화를 얻어야 decode 가능
Future work
- Streaming attention-based model을 적용
  - Neural Tranducer