2019-08-01から1ヶ月間の記事一覧

論文メモ_4

Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic HidingHybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列…

論文メモ_3

End-to-End Multi-Speaker Speech Recognition using Speaker Embeddingsand Transfer Learning"VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking"と似たアイディア。single speakerでモデルを事前学習。 Self-supervise…

別スレッドで重いタスクを動かし、終了後にメインスレッドで値を受け取る。

タイトルにある動作をC++で実装する際、future/promiseを用いた。スレッド終了後、値の受け渡しができる。初めて使用したので、メモ。 std::futureを使うかboost::futureを使うかは、boost::is_ready()を使うかどうかで決める?std::futureのwait_for()でも…

Kaldiでwav fileを読み込む

Kaldiでwav fileを読み込む 1) kaldi formatの"wav.scp"を読み込む:SequentialTableReader<WaveHolder> reader(wav_rspeficier);for (; !reader.Done(); reader.Next()) { std::string key = reader.Key(); const WaveData &wave_data = reader.Value();} 2) wav file pa</waveholder>…

活性化関数の気持ち

以下URLで、neural networkでよく使用される活性化関数とその微分が図示されている。役に立ったのでメモ。https://nn.readthedocs.io/en/rtd/transfer/

論文メモ_2

Cross-Attention End-to-End ASR for Two-Party Conversations2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。 Monau…

論文メモ_1

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking複数話者重畳音声から、特定話者の音声のみを分離する手法を提案。抽出したい話者のd-vectorと複数話者重畳音声を入力し、理想的なmaskを計算。 Learn Spelling from Tea…