機械学習・自然言語処理の勉強メモ

学んだことのメモやまとめ

2017-11-15から1日間の記事一覧

gensimのコーパス操作

コーパスを作るときの操作をまとめる。 from gensim import corpora doclist = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system'], ['eps', 'user', 'interface'], ['system', 'human', 'system', 'eps'], ['user','time'], […

gensimのword2vecを試す。

Word2vecを使って日本語の自然言語処理で分散表現を使おうと思った場合、 Wikipediaデータの入手 データクレンジング(形態素解析できるようテキスト形式に変換) Mecabなどを使って形態素解析 Word2vecで学習 事前にが必要。データクレンジングや学習には結…

gensimでDoc2Vec

Doc2Vecとは Doc2Vecは、任意の長さの文書をベクトル化する技術。 文書やテキストの分散表現を獲得することができる。 *ベクトル同士の類似度を測定して、文書分類や似た文書を探すことができる。Word2VecのCBoWにおける入力は、単語をone-hot表現した単語I…