論文メモ

論文メモ_9

BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learningやりたいこと:データサンプル(群)とモデルパラメタ間の相互情報量を基準に、データプールの中からinformativeなデータサンプルを複数個取り出す。BALD (Bayesian Act…

論文メモ_8

Semi-supervised training for improving data efficiency in end-to-end speech synthesis利用できるデータをできるだけ生かし、Tacotronを学習する試み。1. word embeddingを用いてencoder networkをconditioning。2. decoder networkを、次フレームの出力…

論文メモ_7

Improving performance of end-to-end ASR on numeric sequences数字列を発声した際、システムはそれを文字ではなく数字で表示してほしい。数字へと精度よく変換するための手法の提案。書き起こしに対してtrivialかnon-trivialかをタグ付けし、non-trivialな…

論文メモ_6

Synchronous Bidirectional Neural Machine TranslationNMTでforwad pass decoderとbackward pass decoderの情報を統合する試み。ビームサーチレベルでleft-to-rightとright-to-leftの仮説を保持し、pruning後に生き残った両方向の仮説のstateを、それぞれの…

論文メモ_5

AI and Accessibility: A Discussion of Ethical Considerations1. システムの包括性:誰に向けたシステムか。多様なdiversityをカバーできているか。2. バイアス:性別や人種に対する偏見、障害に基づく差別を促さないか。SNSのようなサービスから、知られ…

論文メモ_4

Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic HidingHybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列…

論文メモ_3

End-to-End Multi-Speaker Speech Recognition using Speaker Embeddingsand Transfer Learning"VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking"と似たアイディア。single speakerでモデルを事前学習。 Self-supervise…

論文メモ_2

Cross-Attention End-to-End ASR for Two-Party Conversations2話者がturn changingしながら話した音声を認識する際、それぞれの話者のためembeddingを明示的に用意し、それをcontext embeddingとして使用。データベースは Switchboardで2-partyのみ。 Monau…

論文メモ_1

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking複数話者重畳音声から、特定話者の音声のみを分離する手法を提案。抽出したい話者のd-vectorと複数話者重畳音声を入力し、理想的なmaskを計算。 Learn Spelling from Tea…