論文メモ_4

Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic Hiding
Hybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列にご認識させられる。コード、サンプルともに公開されていた。

 

Encrypted Speech Recognition using Deep Polynomial Networks
server側でASRを行う際、client側で音響特徴量を暗号化し、server側ではそれに対してhomomorphic encryptionをかけたままposterior probabilityを計算する。client側はそれを受けとって解読し、最終的なsearchを行う。How to prune in encrypted domain and hide this information is still an open problem.

 

Improved Speech Separation with Time-and-Frequency Cross-domain Joint Embedding and Clustering
mixture signalに対してmaskをかけてspeech separationを行う際、time and frequency domain features両方を考慮させる。そのため、入力信号にSFTFをかけた後の出力とCNNをかけた後の出力 (CNN encoded features) 両方を対象に、それぞれmaskの推定や信号の生成を行う。maskを計算する際に1d convをかけ、両方をミックス。

 

Speech Model Pre-training for End-to-End Spoken Language Understanding
Spoken language understanding のためのデータ (Fluent Speech Command) およびコードを作成。# hours (train): 14.7, # spk (train): 77。

 

Few Shot Speaker Recognition using Deep Neural Networks
capsle networkを用いて、few shot speaker recognition (~3seconds)。

 

Triplet Network with Attention for Speaker Diarization
speaker diarization taskでself attentionを用いる。triplet lossを用いて、異なる話者との間のembedding space上での距離(L2)が一定以上となるよう学習。評価基準はdiarization error rate[1]。
[1] pyannote.metrics: a toolkit for reproducible evaluation,diagnostic, and error analysis of speaker diarization systems

 

Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features