形態素解析

シェルスクリプトでお手軽な文書の形態素解析

シェルスクリプトでお手軽な文書の形態素解析test.csv 日付[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]文書[TAB]xxxx while read i; do str=`echo "$i" | awk -F"\t" '{print $7}' | mecab -Owakati` date1=`echo "$i" | awk -F"\t" '{print $1}…

mecabの未知語処理

mecabの未知語処理 まず、http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html でmecabのコスト計算のしくみを学習.コスト -単語の生成コスト+周りとのつながりのコスト -> 小さいルートを選ぶ. mecabの未知語処理 未知語処理は辞書をつかう ht…

mecabとrubyである単語の前後にある単語を取得

以下でなく連続ワード対応版を使う:: (1)node.feature.split(",")[6].encode("UTF-8","UTF-8") -> node.surfece featureだと未知語がでなくなる問題がある。 (2)複合語版を使うべき。 http://d.hatena.ne.jp/arupaka-_-arupaka/20150511/1431327544m…