機械学習・自然言語処理の勉強メモ

学んだことのメモやまとめ

gensim

gensimでLDA

LDA(Latent Dirichlet Allocation) 1つの文書が複数のトピックから成ることを仮定した言語モデルの一種。 各文書には潜在トピックがあると仮定し、統計的に共起しやすい単語の集合が生成される要因を、この潜在トピックという観測できない確率変数で定式化す…

gensimでLSI(潜在的意味解析)

コーパスと辞書を用いて潜在的意味解析を行う。 *文書のベクトル化(次元圧縮) 文書セットから辞書を作成する。 不用語を取り除く BoW表現に変換 from gensim import corpora dic = corpora.Dictionary(documents) dic.filter_extremes(no_below=20, no_ab…

gensimのコーパス操作

コーパスを作るときの操作をまとめる。 from gensim import corpora doclist = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system'], ['eps', 'user', 'interface'], ['system', 'human', 'system', 'eps'], ['user','time'], […

gensimのword2vecを試す。

Word2vecを使って日本語の自然言語処理で分散表現を使おうと思った場合、 Wikipediaデータの入手 データクレンジング(形態素解析できるようテキスト形式に変換) Mecabなどを使って形態素解析 Word2vecで学習 事前にが必要。データクレンジングや学習には結…

gensimでDoc2Vec

Doc2Vecとは Doc2Vecは、任意の長さの文書をベクトル化する技術。 文書やテキストの分散表現を獲得することができる。 *ベクトル同士の類似度を測定して、文書分類や似た文書を探すことができる。Word2VecのCBoWにおける入力は、単語をone-hot表現した単語I…