MeCabの基本操作
形態素解析エンジン。
言語, 辞書,コーパスに依存しない汎用的な設計が基本方針。
コスト推定はコーパスから学習する。
*与えられた文章を分割できるすべてのパターンに分割し、その中で計算したコストがもっとも小さい分割結果を採用。
とりあえず解析
MeCab::Tagger
というクラスのインスタンスを生成し,
parse (or parseToString)
というメソッドを呼ぶことで, 解析結果が文字列として取得できます.
MeCab::Tagger
のコンストラクタの引数は, 基本的に mecab
の実行形式に与え るパラメータと同一
import MeCab m = MeCab.Tagger ("-Osimple") print(m.parse("今日は日曜日です。")) #今日 名詞-副詞可能 #は 助詞-係助詞 #日曜日 名詞-副詞可能 #です 助動詞 #。 記号-句点 #EOS m = MeCab.Tagger ("-Oyomi") #キョウハニチヨウビデス。 m = MeCab.Tagger ("-Odump") #0 BOS BOS/EOS,*,*,*,*,*,*,*,* 0 0 0 0 0 0 2 1 0.000000 0.000000 0.000000 0 #8 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー 0 6 1314 1314 67 2 0 1 0.000000 0.000000 0.000000 3947 #20 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 6 9 261 261 16 6 0 1 0.000000 0.000000 0.000000 4822 #35 日曜日 名詞,副詞可能,*,*,*,*,日曜日,ニチヨウビ,ニチヨービ 9 18 1314 1314 67 2 0 1 0.000000 0.000000 0.000000 9783 #57 です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 18 24 460 460 25 6 0 1 0.000000 0.000000 0.000000 10955 #65 。 記号,句点,*,*,*,*,。,。,。 24 27 8 8 7 3 0 1 0.000000 0.000000 0.000000 7565 #67 EOS BOS/EOS,*,*,*,*,*,*,*,* 27 27 0 0 0 0 3 1 0.000000 0.000000 0.000000 6029 m = MeCab.Tagger ("-Ochasen") #今日 キョウ 今日 名詞-副詞可能 #は ハ は 助詞-係助詞 #日曜日 ニチヨウビ 日曜日 名詞-副詞可能 #です デス です 助動詞 特殊・デス 基本形 #。 。 。 記号-句点 #EOS m = MeCab.Tagger ("-Owakati") #今日 は 日曜日 です 。
公式は、下記
MeCab: Yet Another Part-of-Speech and Morphological Analyzer