論文メモ_7

Improving performance of end-to-end ASR on numeric sequences
数字列を発声した際、システムはそれを文字ではなく数字で表示してほしい。数字へと精度よく変換するための手法の提案。書き起こしに対してtrivialかnon-trivialかをタグ付けし、non-trivialな部分は別途モデル (FST|NN) へ入力し変換を行う。

 

Discriminative learning for monaural speech separation using deep embedding features
end-to-endにspeech separationをする。deep clusteringとuPITを組み合わせ、すべてをend-to-endで学習。まずDCでembedded featureを求め、これをuPIT側へ入力。(discriminative learning of uPIT: 選択したpermutationの候補以外の組み合わせで計算したロスにマイナスをかけ、それをDCとuPITにロスに足しこむ。)

 

Fast DNN acoustic model speaker adaptation by learning hidden unit contribution features
従来のLHUCは、適応データを準備してLHUCのパラメタをbackpropで学習する。backprop無しでデータ量の増加に応じてonline adaptationできるように、averaging layerを持つLHUC prediction networkを用意し、この出力に応じてadaptationを行う。

 

Unsupervised adaptation with adversarial dropout regularization for robust speech recognition
adversarial dropout regularizationを用いた音響モデルの話者適応。モデルはDNN-HMM hybrid systemで、framewise posteriorを対象としてる。

 

Exploiting semi-supervised training through a dropout regularization in end-to-end speech recognition
dropoutを用いてラベルを作成し、semi supervised trainingを行う。decoding scoreやエントロピーを用いて生成したラベルrの信頼度を計算し、適応データとして使用するかどうか決める。

 

Sequence-to-sequence learning via attention transfer for incremental speech recognition
Incremental speech recognitionの学習手法。attention matrixからknowledge distillation。

 

Group latent embedding for vector quantized variational autoencoder in non-parallel voice conversion
VQ-VAEを用いた音声変換。辞書をsub-groupに分割し選択したsubgroupの重み付き和を潜在変数に。