機械学習・自然言語処理の勉強メモ

学んだことのメモやまとめ

torchtext

pytorch-transformersを触ってみる④

はじめに 前回はfine tuningということで、GLUEタスクのSST-2に取り組みました。 kento1109.hatenablog.comまた、GLUEタスクのfine tuningを実行するためのスクリプト(run_glue.py )のコードを眺めました。今回は、CoNLL(NERの共通タスク)のためのfine t…

Pytorch:テキストの前処理(torchtext)④

はじめに torchtextの使い方に関するメモ。入力の素性をカスタマイズしたい場合について例えば、各系列に付与したカラムを入力に含めたい場合 (0,1は系列の何らかの情報) a 1 b 0 c 1 d 0 e 1 f 0これをどうハンドリングするかについて少し考えた。 簡単な…

Pytorch:テキストの前処理(torchtext)③

はじめに torchtextの使い方メモ第三弾。前回の内容は下記参照 kento1109.hatenablog.com今回の内容は1つだけ。 POSやNERなどのTaggingを考える場合、どのようにtorchtextで読み込めばよいか。前回まではtorchtextでデータをファイルから読む際、想定されて…

Pytorch:テキストの前処理(torchtext)②

前回のtorchtextの使い方の続き。kento1109.hatenablog.com今回、実際の処理でどうすれば良いんだってなったところを確認する。 訓練用と検証用 訓練用と検証用のデータを取り込む。 Datasetクラスのsplitsメソッドが使用できる。使い方は以下の通り TEXT = …

Pytorch:単語のベクトル表現をセットする(torchtext)

はじめに Pytorchの処理で学習済みの単語分散表現(Word2Vec, Glove等)を使いたい場合がある。直接、Embedding層にセットする場合が以下の方法で問題ない。 kento1109.hatenablog.com前処理として、torchtextを利用する場合はそうはいかない。 torchtextは…

Pytorch:テキストのバッチ化(BucketIterator)

前回、torchtextに関する基本をまとめた。kento1109.hatenablog.com今回、もう少し実用的なことをメモする。 BucketIterator テキストを学習データとする場合、当然、文章の系列長は異なる。文章をバッチ化する場合、パディングして系列長を揃える必要がある…

PyTorch:テキストの前処理(torchtext)①

torchtext NLP用のデータローダgithubはここ。 github.com下記のチュートリアルがとても丁寧だった。 github.comまた、日本語の説明だと下記が分かりやすかった。 [DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた- from Deep Learni…