2019-01-01から1年間の記事一覧
はじめに 今更ですが、word2vecの高速化の計算手法である「Negative Sampling」について復習しました。 世は完全に「Transfomer」の趨勢ですが、勉強のために復習しました。前に「階層的ソフトマックス」を説明している論文を読んでいて、これってどう実装す…
NLPにCNNを利用したモデルはすっかり当たり前になりました。少し前に「CNNでテキスト分類」という記事を書きましたが、 その時はPytorchでCNNを扱うための基本的なコードだけに留まっていました。 kento1109.hatenablog.com今回はNERなどで用いられる文字情…
はじめに 前回はBERTのfine tuningということで、NER(固有表現認識)を試してみました。 kento1109.hatenablog.com今回はfine tuningではなく、BERTの事前学習について見ていきたいと思います。 pre-training from scratch ただ、pytorch-transformersでの…
はじめに 前回はfine tuningということで、GLUEタスクのSST-2に取り組みました。 kento1109.hatenablog.comまた、GLUEタスクのfine tuningを実行するためのスクリプト(run_glue.py )のコードを眺めました。今回は、CoNLL(NERの共通タスク)のためのfine t…
はじめに 前回は日本語でのpytorch-transformersの扱い方についてまとめました。 kento1109.hatenablog.comこれまでpytorch-transformersの基本的なところを英語・日本語で動かしてみました。今回はもう一歩進んでfine tuningについてまとめてみます。ドキュ…
はじめに 前回はの入門ということで、QuikStartの内容を触ってみました。 kento1109.hatenablog.com前回は英語でしたが、日本語のテキストを扱う場合はそのまま使うことは出来ません。 ということで、今回はpytorch-transformersで日本語のテキストを扱って…
今更ながら、pytorch-transformersを触ってみます。 このライブラリはドキュメントが充実していて、とても親切です。 なので、今回はドキュメントに基づいて触ってみただけの備忘録です。 以下、有名どころのBERTで試してます。詳しいことはここなどを参照し…
はじめに 今更ですが、tensorboardを触ってみました。普段TensorFlowを使わないので、何となく避けてたのですが、 tensorboardXは「tensorboard for pytorch」ということで、 触ってみました。結論から言うとめちゃくちゃ簡単で便利でした。 なので、備忘録…
はじめに 2018年のNLPの主役は「BERT」で間違いないでしょう。 元の論文はGoogleから発表されており、Googleすごいってなりました。 黙っていないのがPytorchを開発した「Facebook」です。ってことで、彼らの手法でNERのタスクにおいて僅かですがBERTを抜い…
はじめに 以前にPretrained language modelsの基本について書きました。 kento1109.hatenablog.com今回はドメイン領域(Biomedical)での固有表現認識(NER)について適用した論文をまとめます。[1711.07908] Effective Use of Bidirectional Language Model…
今日も少し前に流行ったモデルの復習。 今日はBERTに関してまとめる。https://wikiwiki.jp/animegameex/%E3%83%90%E3%83%BC%E3%83%88これもまた既に素晴らしいまとめがあるのでそちらを参考にしながら復習した。 jalammar.github.io towardsdatascience.com …
久しぶりにブログを更新する。今日は「Attention Is All You Need」に関する復習。もはや2年前の論文で、日本語でも丁寧な解説記事がたくさんある。deeplearning.hatenablog.comとっても今更感があるが、自分自身の理解の定着のためにまとめようと思う。 と…
はじめに 前にgensimによる単語の類似度について書きました。 kento1109.hatenablog.com この手の記事はググればいっぱい出てくるので、gensimでモデルを作って単語の類似度を計算するのは難しくないと思います。ただ、LSTMなどで学習した後の単語の分散表現…
はじめに torchtextの使い方に関するメモ。入力の素性をカスタマイズしたい場合について例えば、各系列に付与したカラムを入力に含めたい場合 (0,1は系列の何らかの情報) a 1 b 0 c 1 d 0 e 1 f 0これをどうハンドリングするかについて少し考えた。 簡単な…