Cross-Attention End-to-End ASR for Two-Party Conversations2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。 Monau…
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking複数話者重畳音声から、特定話者の音声のみを分離する手法を提案。抽出したい話者のd-vectorと複数話者重畳音声を入力し、理想的なmaskを計算。 Learn Spelling from Tea…
モデルの学習:省略。tf.kerasを用いてモデルを構築する。tf.saved_model.save automatically determines a signature for the tf.keras.Model object. In the case of low-level API, see https://www.tensorflow.org/beta/guide/saved_model#exporting_cus…