論文メモ

  • Data Augmentation for End-to-end Code-switching Speech Recognition
    Code-switching speech用のdata augmentation。1. audio splicing: GMM-HMMを用いてcode-switching speechを言語別複数セグメントに分け、同一話者の別発話セグメントと連結することで、新たなcode-switching speechを作成。2. code-switching text with word translation: monolingual textから名詞or動詞を選択し、別言語へ翻訳する→TTS。3. code-switching text with word insertion: 別単語の単語を挿入する→TTS。いずれの手法も、併用した場合も性能改善。

  • Deep Convolutional Neural Network with Mixupfor Environmental Sound Classification
    環境音分類タスクにmixupを使用し、性能改善。

  • QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions
    CNN+CTCを使用した軽量音声認識。1. depthwise separable convolution, 2. ShuffleNetを参考に、group shuffle。

  • Multi-QuartzNet: Multi-Resolution Convolution for Speech Recognition with Multi-Layer Feature Fusion
    QuartzNetの発展。マルチストリーム化、squeeze-and-excitationを用いてchannel方向でのattention、各ストリームに対する重みづけを追加。

  • State-of-the-Art Speech Recognition Using Multi-Stream Self-Attention With Dilated 1D Convolutions
    入力に色々なdilation rateのCNNをかけて、それぞれを独立(multi-stream)に。stream毎にconvolutionやself-attentionをかけて、それをfusion。1D convolutionやself-attentionに対してSVDをかけて次元削減。

  • ACGAN-based Data Augmentation Integrated withLong-term Scalogram for Acoustic SceneClassification
    音響イベント分類タスク。ACGANを用いてdata augmentation。

  • Manifold Mixup: Better Representations byInterpolating Hidden States
    hidden representation上でmixup。特徴量およびラベルをベータ分布からサンプリングした値で線形補間。sequential dataに対しては?

  • Contextual RNN-T for Open Domain ASR
    音声認識の際に補助的なメタテキストデータを追加することで、固有表現の認識性能を向上させる試み。テキストデータに対してattentionをかけてcontext vectorを計算・連結。生成仮説のprefixとメタテキストのprefixが一致しているか調べ、attentionを調整。

  • BLSTM-Driven Stream Fusion for Automatic Speech Recognition: Novel Methods and a Multi-Size Window Fusion Example
    事後確率化した系列をBLSTMに入力して、長いコンテキストを考慮させる。STFTのパラメタを変えて複数入力特徴量を計算し、マルチストリーム化+fusion。

  • Double Adversarial Network based Monaural Speech Enhancement forRobust Speech Recognition
    音声強調のためのGANと音声生成のためのGANを、discriminatorを共有した状態で学習。音性強調側のGANは、0/1の分類ではなく、クリーンスピーチと強調後音声に対するdiscriminatorの出力のL2 lossとする。

  • Unsupervised regularization of the embedding extractor for robust languageidentification
    Maximum Mean Discrepancy lossを用いた言語識別器の教師なし適応

  • Metric learning loss functions to reduce domain mismatch in the x-vectorspace for language recognition
    cross-entropyやadditive angular margin softmax lossで言語識別器を学習し、ミスマッチを生じさせる要因 (channel mismatch, gender mismatch) をMMD (maximum mean discrepancy) を用いて評価。

  • Kaldi-web: An installation-free, on-device speech recognition system
    kaldi用web GUI (https://gitlab.inria.fr/kaldi.web/kaldi-wasm)。