機械学習・自然言語処理の勉強メモ

学んだことのメモやまとめ

MeCabの基本操作

形態素解析エンジン。

言語, 辞書,コーパスに依存しない汎用的な設計が基本方針。
コスト推定はコーパスから学習する。

*与えられた文章を分割できるすべてのパターンに分割し、その中で計算したコストがもっとも小さい分割結果を採用。

とりあえず解析
MeCab::Tagger というクラスのインスタンスを生成し,
parse (or parseToString) というメソッドを呼ぶことで, 解析結果が文字列として取得できます.
MeCab::Tagger のコンストラクタの引数は, 基本的に mecab の実行形式に与え るパラメータと同一

import MeCab 
m = MeCab.Tagger ("-Osimple") 
print(m.parse("今日は日曜日です。")) 
#今日	名詞-副詞可能 
#は	助詞-係助詞 
#日曜日	名詞-副詞可能 
#です	助動詞 
#。	記号-句点 
#EOS 
 
 
m = MeCab.Tagger ("-Oyomi") 
#キョウハニチヨウビデス。 
 
m = MeCab.Tagger ("-Odump") 
#0 BOS BOS/EOS,*,*,*,*,*,*,*,* 0 0 0 0 0 0 2 1 0.000000 0.000000 0.000000 0 
#8 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー 0 6 1314 1314 67 2 0 1 0.000000 0.000000 0.000000 3947 
#20 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 6 9 261 261 16 6 0 1 0.000000 0.000000 0.000000 4822 
#35 日曜日 名詞,副詞可能,*,*,*,*,日曜日,ニチヨウビ,ニチヨービ 9 18 1314 1314 67 2 0 1 0.000000 0.000000 0.000000 9783 
#57 です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 18 24 460 460 25 6 0 1 0.000000 0.000000 0.000000 10955 
#65 。 記号,句点,*,*,*,*,。,。,。 24 27 8 8 7 3 0 1 0.000000 0.000000 0.000000 7565 
#67 EOS BOS/EOS,*,*,*,*,*,*,*,* 27 27 0 0 0 0 3 1 0.000000 0.000000 0.000000 6029 
 
m = MeCab.Tagger ("-Ochasen") 
#今日	キョウ	今日	名詞-副詞可能	 
#は	ハ	は	助詞-係助詞	 
#日曜日	ニチヨウビ	日曜日	名詞-副詞可能	 
#です	デス	です	助動詞	特殊・デス	基本形 
#。	。	。	記号-句点	 
#EOS 
 
m = MeCab.Tagger ("-Owakati") 
#今日 は 日曜日 です 。 


公式は、下記
MeCab: Yet Another Part-of-Speech and Morphological Analyzer