Data Augmentation for End-to-end Code-switching Speech Recognition Code-switching speech用のdata augmentation。1. audio splicing: GMM-HMMを用いてcode-switching speechを言語別複数セグメントに分け、同一話者の別発話セグメントと連結することで…
Overview and Evaluation of Sound Event Localization and Detection in DCASE 2019 2019年のDCASE challengeの総評。 Intra-Utterance Similarity Preserving Knowledge Distillation for Audio Tagging Audio taggingタスク。サンプル単位でのhidden vect…
エラー文 aclocal-1.14: command not found 元々の開発環境と現在の開発環境の違いにより生じる。 autoreconf -f -i を実行して更新する。
1. Install a package with repository for your system: On CentOS, install package centos-release-scl available in CentOS repository: $ sudo yum install centos-release-scl On RHEL, enable RHSCL repository for you system: $ sudo yum-config-ma…
加速主義
第三者効果 マスメディアがもたらす影響を他人事として考えること。すなわち、テレビや新聞などによって伝えられる説得的なメッセージによって多くの人は影響を受けると懸念する一方、それは自分以外の他者(第三者)においてのみ起こることで、自分だけはメ…
OpenSSL 1.1.0以降、EVP_CIPHER_CTXに関する文法が変更されている。 - 初期化 更新前 (1.0.0) EVP_CIPHER_CTX ctx; EVP_CIPHER_CTX_init(&ctx); 更新後 (1.1.0) EVP_CIPHER_CTX *ctx = EVP_CIPHER_CTX_new(); EVP_CIPHER_CTX_init(ctx); - 後処理 更新前 (1.…
install gcc-5.1.0 0) wget tar zxvf gcc-5.1.0.tar.gz cd gcc-5.1.0 ./contrib/download_prerequisites mkdir build cd build ../configure --enable-languages=c,c++ --prefix=/path/to/gcc-5 --disable-bootstrap --disable-multilib make -j make instal…
小飼 弾「中卒でもわかる科学入門」 - 原発:失敗と改善を繰り返せない。- 私たちにあるのは自由意志ではなく自由不意思。次に読む本:池谷裕二「単純な脳、複雑な私」https://freespeechact.files.wordpress.com/2016/03/seeing_as_things_as_they_are_priv…
C++でpytorchを動かした際のメモ。 [pytorch]- tracingとscriptingについて[2]。traceは、example dataを入力しそのときに実行された計算のみを記録する。ifやloopがある場合は、scriptを用いる。 - torch.nn.ModuleListにアクセスする際は、indexを指定でき…
export TMPDIR=/path/to/tmp/directory/で別途、一時ディレクトリを指定。
BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learningやりたいこと:データサンプル(群)とモデルパラメタ間の相互情報量を基準に、データプールの中からinformativeなデータサンプルを複数個取り出す。BALD (Bayesian Act…
とある行列計算をFBGEMMおよびQNNPACKで行った [1,2]。 - qnnpack (変数名は、コードに準拠)transposeの有無は指定できない。shapeはA_{mc, kc} x k_{nc, kc} + b_{nc} -> C_{mc, nc}のみを想定。vectorのtemplateの第2引数は、allocator。中国語!の解説記事…
void f() { auto self(enable_shared_from_this()); std::future<int> future = std::async(std::launch::async, [self]() { return g(); }); std::future_status status; status = future.wait_for(std::chrono::milliseconds(1000)); if (status == std::future</int>…
統計的差別
- 死は恐れるべきことなのか。自殺はいかなる時もあるべきではないのか。- 何が満たされれば人格の同一性を主張できる?身体?脳?信念や欲望・記憶?- 快楽主義:人生で経験するプラスとマイナスの経験を足し、それが0以上になるかどうか。注:ただし、経験…
夫婦間で、一方が共感性の低い回避型、もう一方が共感性の高い不安型の場合、問題に対する対処法が相談する場合・される場合ともに異なるため、それぞれが不満を抱き、負のスパイラルへ陥る。問題は不安型の人もしくは双方にあるが、不安型の人が真面目に見…
C++で正規表現を扱う。数字と助数詞を取り出す疑似コード。input: リンゴ2個とイチゴ3個を買う。re: std::regex re( R"( (\D*?[^+-]*?)([+-]?\d[\d,]*[\.]?\d*)(個|匹|本)(.*?) )"); std::vector<std::string> match(std::string& text, std::regex const& re) { std::vec</std::string>…
詳細は以下URLを参照:https://developer.qualcomm.com/blog/impact-big-core-little-core-architecture-application-development big.LITTLEと呼ばれるアーキテクチャは,高性能を追求するbigと省電力性を追求するlittleの2つの種類のコアで構成されている…
Semi-supervised training for improving data efficiency in end-to-end speech synthesis利用できるデータをできるだけ生かし、Tacotronを学習する試み。1. word embeddingを用いてencoder networkをconditioning。2. decoder networkを、次フレームの出力…
Improving performance of end-to-end ASR on numeric sequences数字列を発声した際、システムはそれを文字ではなく数字で表示してほしい。数字へと精度よく変換するための手法の提案。書き起こしに対してtrivialかnon-trivialかをタグ付けし、non-trivialな…
[1] で開発されているプロジェクトのコードを読み、動かす。kaldi、OpenFSTをarmv7でコンパイルし、aarを作成している。コア部分はC++ (kaldi)、front end interfaceはJava。Java側からswigでC++を呼び出している。予めHCLとGをcomposeせず、on-the-fly deco…
Compile Kaldi on Windows参考URL: https://github.com/kaldi-asr/kaldi/blob/master/windows/INSTALL.md 1. OpenFSTのコンパイル以下のプロジェクトをクローンし、slnをvisual studioでビルドする。https://github.com/kkm000/openfst.git 2. Kaldiのコンパ…
Synchronous Bidirectional Neural Machine TranslationNMTでforwad pass decoderとbackward pass decoderの情報を統合する試み。ビームサーチレベルでleft-to-rightとright-to-leftの仮説を保持し、pruning後に生き残った両方向の仮説のstateを、それぞれの…
AI and Accessibility: A Discussion of Ethical Considerations1. システムの包括性:誰に向けたシステムか。多様なdiversityをカバーできているか。2. バイアス:性別や人種に対する偏見、障害に基づく差別を促さないか。SNSのようなサービスから、知られ…
Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic HidingHybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列…
End-to-End Multi-Speaker Speech Recognition using Speaker Embeddingsand Transfer Learning"VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking"と似たアイディア。single speakerでモデルを事前学習。 Self-supervise…
タイトルにある動作をC++で実装する際、future/promiseを用いた。スレッド終了後、値の受け渡しができる。初めて使用したので、メモ。 std::futureを使うかboost::futureを使うかは、boost::is_ready()を使うかどうかで決める?std::futureのwait_for()でも…
Kaldiでwav fileを読み込む 1) kaldi formatの"wav.scp"を読み込む:SequentialTableReader<WaveHolder> reader(wav_rspeficier);for (; !reader.Done(); reader.Next()) { std::string key = reader.Key(); const WaveData &wave_data = reader.Value();} 2) wav file pa</waveholder>…
以下URLで、neural networkでよく使用される活性化関数とその微分が図示されている。役に立ったのでメモ。https://nn.readthedocs.io/en/rtd/transfer/