2015-01-01から1年間の記事一覧
mecabの未知語処理 まず、http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html でmecabのコスト計算のしくみを学習.コスト -単語の生成コスト+周りとのつながりのコスト -> 小さいルートを選ぶ. mecabの未知語処理 未知語処理は辞書をつかう ht…
$ cat food_base_word_mecab.rb require 'MeCab' mecab=MeCab::Tagger.new() f=open("food_base_more_than10.txt") f.each{|i| word=i.split(",")[2] count=i.split(",")[5] #puts str; #str="すもももものもものうち." # str="ドライカレー" node=mecab.par…
ggplot 対数グラフに補助線をつける例 サイズ指定をIでやるのはポイント。。 p<-qplot(vf+vf/2,iqr1,log="xy",geom="point",shape=I(17))+theme_bw(base_size=32)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=tra…
cygwinにmecab-pythonを導入する場合の注意 (1)バージョンはmecabにあわせる (2)setup.pyを以下のように改変する. libraries=["mecab","iconv"]) の部分、コンパイルオプションで使うmecab iconvを選ぶ. http://ftablog.s56.xrea.com/index.php?item…
Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル q2<-read.csv("siawase_ss.csv",header=F) z<-q2[,3][1:length(medi1_food)]/medi1_food plot(q2[,3]/medi1_food[1:length(q2[,3])],type="l") t1<-as.Date("2006-10-31")+1:le…
curl -O https://mecab.googlecode.com/files/mecab-python-0.98.tar.gz gzip -d mecab-python-0.98.tar.gz tar -xvf mecab-python-0.98.tar.gz
rbenvで使っていたrubyでrequire できなくなる
rubyの併合スクリプト rubyでCSVファイルの併合 require "csv" a=Hash.new() CSV.foreach("test.csv"){|i| a[i[0]]=i[1]} b=Hash.new() CSV.foreach("test.csv"){|i| b[i[0]]=i[1]} d=(a.keys() + b.keys()).uniq d.each{|i| puts [i,a[i],b[i]].join(",")} …
名詞をひとまとめにした形態素解析 mecab 一番したのsurface版を使う。 featureだと未知語を無視する問題がある.複合語について http://kw.kait.jp/opac/kkb-022-021._;jsessionid=227623429A2954BED6FEE927770BEEC4?key=DNHDTDhttp://www.nihongokyoshi.co…
時系列規格化用,中央値時系列の作り方 apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(m…
倍率パーセンタイルスクリプト apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(mean_end+…
svm_lightの使用 参考ページ http://www.kazamiya.net/svm/svm-light_install.html ソース http://download.joachims.org/svm_light/current/svm_light.tar.gz コンパイル 501 mkdir svm-light 502 cd svm-light 500 wget http://download.joachims.org/svm_…
find -name "*ss.csv" | xargs -Iv awk -F"," 'BEGIN{str=0}{str=str+$2}END{print FILENAME,str}' v > tmp2
ruby -r Date -ane 'BEGIN{h=Hash.new(0);s2=Date.parse("2015-04-08");s1=Date.parse("2006-11-01");};h[$F[1]]=$F[0]; END{(s2-s1).to_i.times.each{|j| v=(s1+j).to_s; print v+","+h[v].to_s+"\n";}}' tmp0 入力ファイル 268 2006-11-01 239 2006-11-02 …
事前にlibrary(ggplot2)はしておく x<-1:10 y<-2*x qplot(x,y,geom="line",xlab="date",ylab="count")+theme_bw(base_size=30) plot(x,y,type="b")は,geom=c("line","point") qplot(cc[4:length(cc)],exp(m1),xlab="Mean of start",ylab="Mean of 6 year ra…
以下でなく連続ワード対応版を使う:: (1)node.feature.split(",")[6].encode("UTF-8","UTF-8") -> node.surfece featureだと未知語がでなくなる問題がある。 (2)複合語版を使うべき。 http://d.hatena.ne.jp/arupaka-_-arupaka/20150511/1431327544m…
mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本] # -*- coding: Utf-8 -*- require 'MeCab' def get_feature_from_text(text1,mecab) list1=[] node=mecab.parseToNode(text1) while node.next != nil do node=node.next list1.push(n…
以下の方法が楽かも q<-qplot((vs+vf)/2,sd2009_2010)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=trans_format("log10",math_format(10^.x)))+theme_bw(base_size=27) q<-q+xlab("Counts 2009")+ylab("S.D of r…
- library(ggplot2) x y p0 p0 print(p0) - 4行の図 - p1 p1 #+facet_grid(row=4) p12006-09-01"),y=70),label="(a)") #+facet_grid(row=4) p2tck=0.03,ylab="m(t)",geom="line") p2 p22006-09-01"),y=1.2),label="(b)") #+facet_grid(row=4)p3tck=0.03,yla…
基本的にはexpressionを使う.http://stackoverflow.com/questions/15736370/special-characters-and-superscripts-r-plot-axis-titles が参考になる.例えば, は, plot(1:10,ylab=expression(sqrt(delta~"V["~tilde(F)~"]"))) 区切り記号に~をつかっている…
リストに含まれる単語をカウント f=open("food_list0_b.txt") food_list=[] id_list=[] f.each{|i| i.chomp! j=i.split(",") id_list.push(j[0]) ; food_list.push(j[1]) ; } #food_list.each{|i| puts i} #f2=open('buumu_kanrenbun3_str.csv') f2=open('bu…
http://takuya-1st.hatenablog.jp/entry/20120804/1346266936 を参考に. /usr/share/mysql/mysql.server start --skip-grant-tables たぶん権限関係でいろいろいわれるので、 以下のサイトを参考にする. Access denied for user ‘root’@’localhost’ (using…
ruby-mysqlをインストール gem install ruby-mysql ユーザー名等はMYSQL内で SELECT user,host,password FROM mysql.user; 等で確認できる.ruby-mysqlを使ってみる. 以下 http://www.ownway.info/Ruby/ruby-mysql/about を参考に,mysqlライブラリの解説:…
sqlite3はVersion 3.8.9. sqlite3は2000列しかデフォルトでは最大使えないので、 それを増やす。エラーコード `initialize': malformed database schema (TABLENAME) - too many columns on normalized_freq_time_series (SQLite3::CorruptException) 増や…
いろいろはまる。 大元: http://taku910.github.io/cabocha/ 事前に必要なもの CRF++ MeCab 0.98(MeCabは0.98インストール済みとして, 0.99系はうまくcygwinにインストールできず) CRF++のインストール (1)まずはソースの取得 google-codeがおかしくな…
chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…
chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…
chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…
http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_web からcrf++_0.58(最新版)をダウンロード。 ./configure --help…