論文メモ

Data Augmentation for End-to-end Code-switching Speech Recognition Code-switching speech用のdata augmentation。1. audio splicing: GMM-HMMを用いてcode-switching speechを言語別複数セグメントに分け、同一話者の別発話セグメントと連結することで…

論文メモ

Overview and Evaluation of Sound Event Localization and Detection in DCASE 2019 2019年のDCASE challengeの総評。 Intra-Utterance Similarity Preserving Knowledge Distillation for Audio Tagging Audio taggingタスク。サンプル単位でのhidden vect…

aclocal command not found

エラー文 aclocal-1.14: command not found 元々の開発環境と現在の開発環境の違いにより生じる。 autoreconf -f -i を実行して更新する。

devtoolsetについて

1. Install a package with repository for your system: On CentOS, install package centos-release-scl available in CentOS repository: $ sudo yum install centos-release-scl On RHEL, enable RHSCL repository for you system: $ sudo yum-config-ma…

加速主義

加速主義

第三者効果

第三者効果 マスメディアがもたらす影響を他人事として考えること。すなわち、テレビや新聞などによって伝えられる説得的なメッセージによって多くの人は影響を受けると懸念する一方、それは自分以外の他者(第三者)においてのみ起こることで、自分だけはメ…

error: aggregate ‘EVP_CIPHER_CTX ctx’ has incomplete type and cannot be defined

OpenSSL 1.1.0以降、EVP_CIPHER_CTXに関する文法が変更されている。 - 初期化 更新前 (1.0.0) EVP_CIPHER_CTX ctx; EVP_CIPHER_CTX_init(&ctx); 更新後 (1.1.0) EVP_CIPHER_CTX *ctx = EVP_CIPHER_CTX_new(); EVP_CIPHER_CTX_init(ctx); - 後処理 更新前 (1.…

install gcc-5.1.0

install gcc-5.1.0 0) wget tar zxvf gcc-5.1.0.tar.gz cd gcc-5.1.0 ./contrib/download_prerequisites mkdir build cd build ../configure --enable-languages=c,c++ --prefix=/path/to/gcc-5 --disable-bootstrap --disable-multilib make -j make instal…

中卒でもわかる科学入門

小飼 弾「中卒でもわかる科学入門」 - 原発:失敗と改善を繰り返せない。- 私たちにあるのは自由意志ではなく自由不意思。次に読む本:池谷裕二「単純な脳、複雑な私」https://freespeechact.files.wordpress.com/2016/03/seeing_as_things_as_they_are_priv…

TorchScript. C++でpytorchを動かす

C++でpytorchを動かした際のメモ。 [pytorch]- tracingとscriptingについて[2]。traceは、example dataを入力しそのときに実行された計算のみを記録する。ifやloopがある場合は、scriptを用いる。 - torch.nn.ModuleListにアクセスする際は、indexを指定でき…

"cannot create temp file for here-document: No space left on device"の本質的ではない対処方法

export TMPDIR=/path/to/tmp/directory/で別途、一時ディレクトリを指定。

論文メモ_9

BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learningやりたいこと:データサンプル(群)とモデルパラメタ間の相互情報量を基準に、データプールの中からinformativeなデータサンプルを複数個取り出す。BALD (Bayesian Act…

FP16で行列計算

とある行列計算をFBGEMMおよびQNNPACKで行った [1,2]。 - qnnpack (変数名は、コードに準拠)transposeの有無は指定できない。shapeはA_{mc, kc} x k_{nc, kc} + b_{nc} -> C_{mc, nc}のみを想定。vectorのtemplateの第2引数は、allocator。中国語!の解説記事…

タイムアウトを設定し、関数を実行する (C++)

void f() { auto self(enable_shared_from_this()); std::future<int> future = std::async(std::launch::async, [self]() { return g(); }); std::future_status status; status = future.wait_for(std::chrono::milliseconds(1000)); if (status == std::future</int>…

統計的差別

統計的差別

「死」とは何か イェール大学で23年連続の人気講義

- 死は恐れるべきことなのか。自殺はいかなる時もあるべきではないのか。- 何が満たされれば人格の同一性を主張できる?身体?脳?信念や欲望・記憶?- 快楽主義:人生で経験するプラスとマイナスの経験を足し、それが0以上になるかどうか。注:ただし、経験…

カサンドラ症候群 - 身近な人がアスペルガーだったら

夫婦間で、一方が共感性の低い回避型、もう一方が共感性の高い不安型の場合、問題に対する対処法が相談する場合・される場合ともに異なるため、それぞれが不満を抱き、負のスパイラルへ陥る。問題は不安型の人もしくは双方にあるが、不安型の人が真面目に見…

std::regexのメモ (その1)

C++で正規表現を扱う。数字と助数詞を取り出す疑似コード。input: リンゴ2個とイチゴ3個を買う。re: std::regex re( R"( (\D*?[^+-]*?)([+-]?\d[\d,]*[\.]?\d*)(個|匹|本)(.*?) )"); std::vector<std::string> match(std::string& text, std::regex const& re) { std::vec</std::string>…

Big coreとLittle core

詳細は以下URLを参照:https://developer.qualcomm.com/blog/impact-big-core-little-core-architecture-application-development big.LITTLEと呼ばれるアーキテクチャは,高性能を追求するbigと省電力性を追求するlittleの2つの種類のコアで構成されている…

論文メモ_8

Semi-supervised training for improving data efficiency in end-to-end speech synthesis利用できるデータをできるだけ生かし、Tacotronを学習する試み。1. word embeddingを用いてencoder networkをconditioning。2. decoder networkを、次フレームの出力…

論文メモ_7

Improving performance of end-to-end ASR on numeric sequences数字列を発声した際、システムはそれを文字ではなく数字で表示してほしい。数字へと精度よく変換するための手法の提案。書き起こしに対してtrivialかnon-trivialかをタグ付けし、non-trivialな…

スマホで音声認識

[1] で開発されているプロジェクトのコードを読み、動かす。kaldi、OpenFSTをarmv7でコンパイルし、aarを作成している。コア部分はC++ (kaldi)、front end interfaceはJava。Java側からswigでC++を呼び出している。予めHCLとGをcomposeせず、on-the-fly deco…

Kaldiをwindows上でコンパイルする

Compile Kaldi on Windows参考URL: https://github.com/kaldi-asr/kaldi/blob/master/windows/INSTALL.md 1. OpenFSTのコンパイル以下のプロジェクトをクローンし、slnをvisual studioでビルドする。https://github.com/kkm000/openfst.git 2. Kaldiのコンパ…

論文メモ_6

Synchronous Bidirectional Neural Machine TranslationNMTでforwad pass decoderとbackward pass decoderの情報を統合する試み。ビームサーチレベルでleft-to-rightとright-to-leftの仮説を保持し、pruning後に生き残った両方向の仮説のstateを、それぞれの…

論文メモ_5

AI and Accessibility: A Discussion of Ethical Considerations1. システムの包括性:誰に向けたシステムか。多様なdiversityをカバーできているか。2. バイアス:性別や人種に対する偏見、障害に基づく差別を促さないか。SNSのようなサービスから、知られ…

論文メモ_4

Adversarial Attacks Against Automatic Speech Recognition System via Psychoacoustic HidingHybrid DNN-HMM systemを対象としたadversarial attack。exampleを生成する際、mp3圧縮を参考に取りうる値に制約を置くことで、imperceptibleに。任意の単語系列…

論文メモ_3

End-to-End Multi-Speaker Speech Recognition using Speaker Embeddingsand Transfer Learning"VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking"と似たアイディア。single speakerでモデルを事前学習。 Self-supervise…

別スレッドで重いタスクを動かし、終了後にメインスレッドで値を受け取る。

タイトルにある動作をC++で実装する際、future/promiseを用いた。スレッド終了後、値の受け渡しができる。初めて使用したので、メモ。 std::futureを使うかboost::futureを使うかは、boost::is_ready()を使うかどうかで決める?std::futureのwait_for()でも…

Kaldiでwav fileを読み込む

Kaldiでwav fileを読み込む 1) kaldi formatの"wav.scp"を読み込む:SequentialTableReader<WaveHolder> reader(wav_rspeficier);for (; !reader.Done(); reader.Next()) { std::string key = reader.Key(); const WaveData &wave_data = reader.Value();} 2) wav file pa</waveholder>…

活性化関数の気持ち

以下URLで、neural networkでよく使用される活性化関数とその微分が図示されている。役に立ったのでメモ。https://nn.readthedocs.io/en/rtd/transfer/