論文メモ

Data Augmentation for End-to-end Code-switching Speech Recognition Code-switching speech用のdata augmentation。1. audio splicing: GMM-HMMを用いてcode-switching speechを言語別複数セグメントに分け、同一話者の別発話セグメントと連結することで…

2019-12-13

論文メモ_9

論文メモ

BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learningやりたいこと：データサンプル(群)とモデルパラメタ間の相互情報量を基準に、データプールの中からinformativeなデータサンプルを複数個取り出す。BALD (Bayesian Act…

2019-10-10

論文メモ_8

論文メモ

Semi-supervised training for improving data efficiency in end-to-end speech synthesis利用できるデータをできるだけ生かし、Tacotronを学習する試み。1. word embeddingを用いてencoder networkをconditioning。2. decoder networkを、次フレームの出力…

2019-09-29

論文メモ_7

論文メモ

Improving performance of end-to-end ASR on numeric sequences数字列を発声した際、システムはそれを文字ではなく数字で表示してほしい。数字へと精度よく変換するための手法の提案。書き起こしに対してtrivialかnon-trivialかをタグ付けし、non-trivialな…

2019-09-23

論文メモ_6

論文メモ

Synchronous Bidirectional Neural Machine TranslationNMTでforwad pass decoderとbackward pass decoderの情報を統合する試み。ビームサーチレベルでleft-to-rightとright-to-leftの仮説を保持し、pruning後に生き残った両方向の仮説のstateを、それぞれの…

2019-09-07

論文メモ_5

論文メモ

AI and Accessibility: A Discussion of Ethical Considerations1. システムの包括性：誰に向けたシステムか。多様なdiversityをカバーできているか。2. バイアス：性別や人種に対する偏見、障害に基づく差別を促さないか。SNSのようなサービスから、知られ…

2019-08-25

論文メモ_4

論文メモ

Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic HidingHybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列…

2019-08-19

論文メモ_3

論文メモ

End-to-End Multi-Speaker Speech Recognition using Speaker Embeddingsand Transfer Learning"VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking"と似たアイディア。single speakerでモデルを事前学習。 Self-supervise…

2019-08-12

論文メモ_2

論文メモ

Cross-Attention End-to-End ASR for Two-Party Conversations2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。 Monau…

2019-08-02

論文メモ_1

論文メモ

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking複数話者重畳音声から、特定話者の音声のみを分離する手法を提案。抽出したい話者のd-vectorと複数話者重畳音声を入力し、理想的なmaskを計算。 Learn Spelling from Tea…