論文メモ_6

Synchronous Bidirectional Neural Machine Translation
NMTでforwad pass decoderとbackward pass decoderの情報を統合する試み。ビームサーチレベルでleft-to-rightとright-to-leftの仮説を保持し、pruning後に生き残った両方向の仮説のstateを、それぞれの方向のdecoderが受け取るようなネットワーク構造を提案。

 

Knowledge Distillation for Small-Footprint Highway Networks
Hybrid DNN-HMMのDNN (highway networks) をknowledge distillationした研究。

 

Predicting expressive speaking style from text in end-to-end speech synthesis
Global Style Tokensを用いて、multi-speaker multi-speaking styleのTTSを行う試み。style tokenの重み付き和をtextから予測し、これを用いてglobal conditioningを行う。

 

Multilingual ASR with massive data augmentation
Hybrid ASR systemを作成する際、音響モデル・言語モデルともにmultilingual dataを用いて言語非依存なモデルを学習する(end-to-endでは、monolithic neural network architectureでmulti lingual ASRを学習する研究が既に報告されている)。その際、low resourceを仮定し、speed perturbationやspecAugmentなどのdata augmentation を行う。hybrid systemの場合でも、言語依存の場合と比較して性能改善。(大規模データでどうなる?)

 

Large-Scale Multilingual Speech Recognitionwith a Streaming End-to-End Model
RNN-Tを用いてmultilingual ASRを行う試み。1) language vectorの入力 2) data sampling 3) adapterを用いて言語依存化 を行った。言語セットが類似している場合、言語情報を入力することは有効。

 

Probing the information encoded in x-vectors
(i-vectorおよび)x-vectorに話者以外の情報 (チャネルやテキスト情報、雑音情報) が含まれているか、調査を行う。

 

VAE-Based Regularization for Deep Speaker Embedding
(後段のPLDAとの相性を考え)VAEを用いてx-vectorをGaussianに。また、speaker cohesive lossを提案:話者sの平均x-vectorを$s(x)$、話者sサンプルiのx-vectorを$\mu(x)$としたとき、$\ln p(\mu(x)|\s(x))$を新たにロスとして追加。同一話者のlatent representationをより近くへ。

 

An Online Attention-Based Model for Speech Recognition
attention networkが取りうるencoder representationを制限するための手法を提案。考慮する領域をneural baseで決定することが、先行研究との違い (adaptive monotonic chunk-wise attention: AMoChA)。取りうるattentionの領域を学習するための教師データとしては、searchの情報やHMMのアライメント情報を用いる。encoder networkはlatency controlled bidirectional LSTM。

 

Lattice Generation in Attention-Based Speech Recognition Models
encode decoder networks でlatticeを生成する試み。(TODO) コードが公開されている。あまり理解できなかったので、公開されているコードを読む。

 

Trainable dynamic subsampling for end-to-end speech recognition
音声はencoder側のtime stepが大きくなりがちなので、subsamplingが行われる。従来は手動で決定していたsamplingを行うタイミングを学習することで、フレームの重要度に応じてdata drivenに取捨選択させようとする試み。hidden vectorを入力としてMLPを学習し、hardに決定する。

 

Speaker adaptation for attention based end-to-end speech recognition
attention-based encoder decoder networksを話者適応する試み。1) KL divergenceを用いた正則化項の追加 2) adversarial training (話者) の追加 3) 異なるlabel unitを用いたmulti task learningを行う。発話数は100 or 200発話で、すべてのパラメタもしくはencoder networkのみを更新。