論文メモ_8 - tokumei_meerkatのブログ

Semi-supervised training for improving data efficiency in end-to-end speech synthesis
利用できるデータをできるだけ生かし、Tacotronを学習する試み。1. word embeddingを用いてencoder networkをconditioning。2. decoder networkを、次フレームの出力を予測するよう学習させ、autoregressive modelとして事前学習する。

A new GAN based end-to-end TTS training algorithm
Tacotronのexposure biasを改善するための試み。teacher forcingを行った場合とfree running (inference mode) との間でGANを学習する。discriminatorへの入力は、ネットワークの出力系列ではなく、attention networkのhidden states。

Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization
GMVAE w/ Tacotronを用いた音声合成。雑音および話者に関する情報をdisentangleするため、global condition用のencoderの出力に対し、雑音が重畳されているかどうかを当てるタスクを追加し、adversarial trainingを行う。雑音が重畳されたより収集が容易なデータも学習データとしたい。

Speech-to-speech translation between untranscribed unknown languages
テキストデータを用いずに、speech to speech translation。VQ-VAEを用いて離散シンボルを学習。

Domain expansion in DNN-based acoustic models for robust speech recognition
DNN-HMM hybrid systemのアクセントを対象とした adaptation (ここではdomain expansion)を行う。過去に提案されているKL divergence baseの正則化項とelastic weight consolidation (EWC)の併用を、他の先行研究と比較。パラメタのL2ノルムをFisher行列の対応する値で重みづけ。

Self-attention transducers for end-to-end speech recognition
RNN-TransducerのRNNをself-attentionに入れ替える。また、path-aware regularization (kaldiでalignmentを求め、これをマルチタスクとして使用)、chunk-flow mechanism (attention計算時に使用するencoder側の系列を固定長へと制限)を用いたonline decodingへの対応を行う。

A multi-task learning framework for overcoming the catastrophic forgetting in automatic speech recognition
domain adaptationを行う際、適応前ドメインの精度も落とさずに新たなドメインに適応を行う試み。対象はCTC。適応時のロスに、適応前学習データを用いた適応前後のCTCの出力のKL divergenceとCTCのlossを追加し、適応前学習データに対する精度が落ちないようにする。fine-tuningやretrainingよりも早く収束し、性能も同等もしくは良い結果となった。

Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs
従来のTTSは、文単位でスコアを求めることが多い。paragraphやdialogレベルでの音声合成では、過去のコンテキストとの関連や一貫性も重要なため、コンテキストを考慮した上でTTSの評価を行う枠組み

Exploring methods for the automatic detection of errors in manual transcription
ASRの学習に使用する音声・テキストペア内に含まれる、書き起こし誤りを検出する試み。(kaldiでは、書き起こしを用いてbiased LMを学習し、decoding結果の精度をチェックことで間違った正解ラベルの検出を行う。この文献では、)DNN-HMMで計算した事後確率とforced alignmentをとって計算した確率のsymmetric KL divergenceの標準偏差を発話単位で計算し、これを閾値として誤りを検出する。ただ、EERは、biased LM-baseの手法と同等。