論文メモ_9

BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning
やりたいこと:データサンプル(群)とモデルパラメタ間の相互情報量を基準に、データプールの中からinformativeなデータサンプルを複数個取り出す。BALD (Bayesian Active Learning by Disagreement) は単一サンプルの選択を考えていて、bached sampleの選択というシナリオ化で選択したサンプル間の関係を考慮できていなかったため、これを改良。

 

ASR is all you need: cross-modal distillation for lip reading
lip reading systemを教師なしで学習。そのためにASRを学習し、そのモデルからcross modalにdistillationを行う。

 

Towards Robust Neural Vocoding for Speech Generation: A Survey
ASRで用いられるSpecAugmentを参考にdata augmentationをしてvocoderを学習したが、この文献では効果が見られなかった。

 

A Comparative Study on End-to-end Speech to Text Translation
H. Neyグループの研究。音声翻訳。

 

Deep Contextualized Acoustic Representations For Semi-Supervised Speech Recognition
音声認識に有効な特徴量抽出器を教師なしで学習し、これをモデルの初期値として使用する。kフレーム先の入力 (fbank) を予測しL1 lossを最小化。k: 12~22。(inspired by ELMo) 評価はASRのみ。