論文メモ_2

 

Cross-Attention End-to-End ASR for Two-Party Conversations
2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。

 

Monaural Audio Source Separation using Variational Autoencoders
VAEを用いてsource separation。男性話者と女性話者の音声を重畳しており、より難しいtaskへの応用 (many/similar sources) がfuture work。

 

Multilingual Speech Recognition with Corpus Relatedness Sampling
複数言語のコーパス群を組み合わせてmultilingual ASRを作成する際、学習データとして使用する発話を、認識対象言語コーパスと学習コーパス群の間の類似度をもとにサンプリングして選択する。

 

Bidirectional Recurrent Neural Network with Attention Mechanism forPunctuation Restoration
音声認識モデルを学習する際、書き起こしの句読点は除かれる。認識結果に対して後処理的に句読点を付加するため、それらを追加するかどうかを決定するseq-to-seq modelを学習。入力として音響特徴や言語特徴の比較。

 

RWTH ASR Systems for LibriSpeech: Hybrid vs Attention- w/o Data Augmentation
Data augmentation無しLibrispeechを用いて、hybrid systemとseq-to-seq modelの性能比較。hybrid, seq-to-seqいずれも、他の研究と比べてstate of the art。当然、data augmentationした場合や大規模データを用いた場合に興味を持った。

 

Probabilistic Permutation Invariant Training for Speech Separation
従来のPIT/PFT (permutation invariant training)は、ロスを最小とするラベルを正解ラベルとして使用する。permutation functionを確率密度関数とするprobabilistic PITを提案。

 

Deep Context: End-to-End Contextual Speech Recognition