mecabの未知語処理

形態素解析自然言語処理

mecabの未知語処理まず、http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html でmecabのコスト計算のしくみを学習．コスト -単語の生成コスト+周りとのつながりのコスト -> 小さいルートを選ぶ． mecabの未知語処理未知語処理は辞書をつかう ht…

2015-06-16

　単語リストの複合を分解

ruby mecab

$ cat food_base_word_mecab.rb require 'MeCab' mecab=MeCab::Tagger.new() f=open("food_base_more_than10.txt") f.each{|i| word=i.split(",")[2] count=i.split(",")[5] #puts str; #str="すもももものもものうち." # str="ドライカレー" node=mecab.par…

2015-06-02

ggplot 対数グラフに補助線をつける例

R ggplot

ggplot 対数グラフに補助線をつける例サイズ指定をIでやるのはポイント。。 p<-qplot(vf+vf/2,iqr1,log="xy",geom="point",shape=I(17))+theme_bw(base_size=32)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=tra…

2015-05-26

cygwin にmecab-pythonを導入する場合の注意

cygwinにmecab-pythonを導入する場合の注意（１）バージョンはmecabにあわせる（２）setup.pyを以下のように改変する． libraries=["mecab","iconv"]) の部分、コンパイルオプションで使うmecab iconvを選ぶ． http://ftablog.s56.xrea.com/index.php?item…

2015-05-26

Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル

R 時系列

Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル q2<-read.csv("siawase_ss.csv",header=F) z<-q2[,3][1:length(medi1_food)]/medi1_food plot(q2[,3]/medi1_food[1:length(q2[,3])],type="l") t1<-as.Date("2006-10-31")+1:le…

2015-05-14

mecabをpythonから使う

mecab python

curl -O https://mecab.googlecode.com/files/mecab-python-0.98.tar.gz gzip -d mecab-python-0.98.tar.gz tar -xvf mecab-python-0.98.tar.gz

2015-05-13

rbenvで使っていたrubyでrequire できなくなる

ruby

rbenvで使っていたrubyでrequire できなくなる

2015-05-11

rubyでCSVファイルの併合

ruby

rubyの併合スクリプト rubyでCSVファイルの併合 require "csv" a=Hash.new() CSV.foreach("test.csv"){|i| a[i[0]]=i[1]} b=Hash.new() CSV.foreach("test.csv"){|i| b[i[0]]=i[1]} d=(a.keys() + b.keys()).uniq d.each{|i| puts [i,a[i],b[i]].join(",")} …

2015-05-11

文章から連続する名詞をひとまとめにした形態素解析・複合語の形態素解析

mecab 自然言語処理

名詞をひとまとめにした形態素解析 mecab 一番したのsurface版を使う。 featureだと未知語を無視する問題がある．複合語について http://kw.kait.jp/opac/kkb-022-021._;jsessionid=227623429A2954BED6FEE927770BEEC4?key=DNHDTDhttp://www.nihongokyoshi.co…

2015-05-11

時系列規格化用，中央値時系列の作り方

R

時系列規格化用，中央値時系列の作り方 apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(m…

2015-05-11

倍率パーセンタイルスクリプト

R

倍率パーセンタイルスクリプト apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(mean_end+…

2015-05-11

svm_lightのダウンロードと簡単な使い方の例

機械学習

svm_lightの使用参考ページ http://www.kazamiya.net/svm/svm-light_install.html ソース http://download.joachims.org/svm_light/current/svm_light.tar.gz コンパイル 501 mkdir svm-light 502 cd svm-light 500 wget http://download.joachims.org/svm_…

2015-05-07

２列目の和を連続して出力する

awk

find -name "*ss.csv" | xargs -Iv awk -F"," 'BEGIN{str=0}{str=str+$2}END{print FILENAME,str}' v > tmp2

2015-05-07

rubyのワンライナーで日付に関して数値がないところを0で埋める．

ruby

ruby -r Date -ane 'BEGIN{h=Hash.new(0);s2=Date.parse("2015-04-08");s1=Date.parse("2006-11-01");};h[$F[1]]=$F[0]; END{(s2-s1).to_i.times.each{|j| v=(s1+j).to_s; print v+","+h[v].to_s+"\n";}}' tmp0 入力ファイル 268 2006-11-01 239 2006-11-02 …

2015-05-07

ggplot2のqplotで簡単にきれなグラフ

R

事前にlibrary(ggplot2)はしておく x<-1:10 y<-2*x qplot(x,y,geom="line",xlab="date",ylab="count")+theme_bw(base_size=30) plot(x,y,type="b")は，geom=c("line","point") qplot(cc[4:length(cc)],exp(m1),xlab="Mean of start",ylab="Mean of 6 year ra…

2015-05-07

mecabとrubyである単語の前後にある単語を取得

形態素解析 mecab ruby 自然言語処理

以下でなく連続ワード対応版を使う：：（１）node.feature.split(",")[6].encode("UTF-8","UTF-8") -> node.surfece featureだと未知語がでなくなる問題がある。（２）複合語版を使うべき。 http://d.hatena.ne.jp/arupaka-_-arupaka/20150511/1431327544m…

2015-05-07

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本]

mecab 自然言語処理

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本] # -*- coding: Utf-8 -*- require 'MeCab' def get_feature_from_text(text1,mecab) list1=[] node=mecab.parseToNode(text1) while node.next != nil do node=node.next list1.push(n…

2015-05-04

Rのggplotで両対数プロット　軸の目盛文字の大きさ、１０のべき乗の軸数字表示などのまとめ

R ggplot

以下の方法が楽かも q<-qplot((vs+vf)/2,sd2009_2010)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=trans_format("log10",math_format(10^.x)))+theme_bw(base_size=27) q<-q+xlab("Counts 2009")+ylab("S.D of r…

2015-05-02

ggplotでグラフを書く例（そのまま）

R

- library(ggplot2) x y p0 p0 print(p0) - ４行の図 - p1 p1 #+facet_grid(row=4) p12006-09-01"),y=70),label="(a)") #+facet_grid(row=4) p2tck=0.03,ylab="m(t)",geom="line") p2 p22006-09-01"),y=1.2),label="(b)") #+facet_grid(row=4)p3tck=0.03,yla…

2015-05-02

Rのグラフ上での数式やギリシャ文字の表示 expression

R

基本的にはexpressionを使う．http://stackoverflow.com/questions/15736370/special-characters-and-superscripts-r-plot-axis-titles が参考になる．例えば，は, plot(1:10,ylab=expression(sqrt(delta~"V["~tilde(F)~"]"))) 区切り記号に~をつかっている…

2015-05-01

リストに含まれる単語を数えるスクリプト

ruby テキスト処理

リストに含まれる単語をカウント f=open("food_list0_b.txt") food_list=[] id_list=[] f.each{|i| i.chomp! j=i.split(",") id_list.push(j[0]) ; food_list.push(j[1]) ; } #food_list.each{|i| puts i} #f2=open('buumu_kanrenbun3_str.csv') f2=open('bu…

2015-04-21

cygwinでmysqlを起動と初期設定

http://takuya-1st.hatenablog.jp/entry/20120804/1346266936 を参考に． /usr/share/mysql/mysql.server start --skip-grant-tables たぶん権限関係でいろいろいわれるので、以下のサイトを参考にする． Access denied for user ‘root’@’localhost’ (using…

2015-04-20

wikipediaのカテゴリ以下の見出しワードのすべて取得

ruby-mysqlをインストール gem install ruby-mysql ユーザー名等はMYSQL内で SELECT user,host,password FROM mysql.user; 等で確認できる．ruby-mysqlを使ってみる．以下 http://www.ownway.info/Ruby/ruby-mysql/about を参考に，mysqlライブラリの解説：…

2015-04-10

sqlite3をcygwinにインストール（使用できる列数をふやす）

sqlite3

sqlite3はVersion 3.8.9． sqlite3は2000列しかデフォルトでは最大使えないので、それを増やす。エラーコード `initialize': malformed database schema (TABLENAME) - too many columns on normalized_freq_time_series (SQLite3::CorruptException) 増や…

自然言語処理

http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_web からcrf++_0.58（最新版）をダウンロード。 ./configure --help…

arupaka-_-arupakaの日記

2015-01-01から1年間の記事一覧

mecabの未知語処理

単語リストの複合を分解

ggplot 対数グラフに補助線をつける例

cygwin にmecab-pythonを導入する場合の注意

Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル

mecabをpythonから使う

rbenvで使っていたrubyでrequire できなくなる

rubyでCSVファイルの併合

文章から連続する名詞をひとまとめにした形態素解析・複合語の形態素解析

時系列規格化用，中央値時系列の作り方

倍率パーセンタイルスクリプト

svm_lightのダウンロードと簡単な使い方の例

２列目の和を連続して出力する

rubyのワンライナーで日付に関して数値がないところを0で埋める．

ggplot2のqplotで簡単にきれなグラフ

mecabとrubyである単語の前後にある単語を取得

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本]

Rのggplotで両対数プロット　軸の目盛文字の大きさ、１０のべき乗の軸数字表示などのまとめ

ggplotでグラフを書く例（そのまま）

Rのグラフ上での数式やギリシャ文字の表示 expression

リストに含まれる単語を数えるスクリプト

cygwinでmysqlを起動と初期設定

wikipediaのカテゴリ以下の見出しワードのすべて取得

sqlite3をcygwinにインストール（使用できる列数をふやす）

[sqlite3

cygwinに日本語係り受け解析器CaboChaをインストール

cygwinにchasen 茶筅を導入

cygwinにchasen 茶筅を導入

cygwinにchasen 茶筅を導入

cygwinへのcabochaのインストール