Cross-Attention End-to-End ASR for Two-Party Conversations2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。 Monau…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。