2015-01-01から1年間の記事一覧

mecabの未知語処理

mecabの未知語処理 まず、http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html でmecabのコスト計算のしくみを学習.コスト -単語の生成コスト+周りとのつながりのコスト -> 小さいルートを選ぶ. mecabの未知語処理 未知語処理は辞書をつかう ht…

 単語リストの複合を分解

$ cat food_base_word_mecab.rb require 'MeCab' mecab=MeCab::Tagger.new() f=open("food_base_more_than10.txt") f.each{|i| word=i.split(",")[2] count=i.split(",")[5] #puts str; #str="すもももものもものうち." # str="ドライカレー" node=mecab.par…

ggplot 対数グラフに補助線をつける例

ggplot 対数グラフに補助線をつける例 サイズ指定をIでやるのはポイント。。 p<-qplot(vf+vf/2,iqr1,log="xy",geom="point",shape=I(17))+theme_bw(base_size=32)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=tra…

cygwin にmecab-pythonを導入する場合の注意

cygwinにmecab-pythonを導入する場合の注意 (1)バージョンはmecabにあわせる (2)setup.pyを以下のように改変する. libraries=["mecab","iconv"]) の部分、コンパイルオプションで使うmecab iconvを選ぶ. http://ftablog.s56.xrea.com/index.php?item…

Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル

Rの時系列の基礎処理、週ごと、月ごとの平均やそのプロット(ggplot2)のサンプル q2<-read.csv("siawase_ss.csv",header=F) z<-q2[,3][1:length(medi1_food)]/medi1_food plot(q2[,3]/medi1_food[1:length(q2[,3])],type="l") t1<-as.Date("2006-10-31")+1:le…

mecabをpythonから使う

curl -O https://mecab.googlecode.com/files/mecab-python-0.98.tar.gz gzip -d mecab-python-0.98.tar.gz tar -xvf mecab-python-0.98.tar.gz

rbenvで使っていたrubyでrequire できなくなる

rbenvで使っていたrubyでrequire できなくなる

rubyでCSVファイルの併合

rubyの併合スクリプト rubyでCSVファイルの併合 require "csv" a=Hash.new() CSV.foreach("test.csv"){|i| a[i[0]]=i[1]} b=Hash.new() CSV.foreach("test.csv"){|i| b[i[0]]=i[1]} d=(a.keys() + b.keys()).uniq d.each{|i| puts [i,a[i],b[i]].join(",")} …

文章から連続する名詞をひとまとめにした形態素解析・複合語の形態素解析

名詞をひとまとめにした形態素解析 mecab 一番したのsurface版を使う。 featureだと未知語を無視する問題がある.複合語について http://kw.kait.jp/opac/kkb-022-021._;jsessionid=227623429A2954BED6FEE927770BEEC4?key=DNHDTDhttp://www.nihongokyoshi.co…

時系列規格化用,中央値時系列の作り方

R

時系列規格化用,中央値時系列の作り方 apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(m…

倍率パーセンタイルスクリプト

R

倍率パーセンタイルスクリプト apply(mat_food,"median",2) medi1_food<-NULL mean1_food<-apply(mat_food,2,"mean") for(i in 1:length(mat_food[,1])){ q<-(mat_food[i,]/mean1_food)[which(mean1_food>=100)] medi1_food[i]<-median(q) } #r0<-(mean_end+…

svm_lightのダウンロードと簡単な使い方の例

svm_lightの使用 参考ページ http://www.kazamiya.net/svm/svm-light_install.html ソース http://download.joachims.org/svm_light/current/svm_light.tar.gz コンパイル 501 mkdir svm-light 502 cd svm-light 500 wget http://download.joachims.org/svm_…

2列目の和を連続して出力する

awk

find -name "*ss.csv" | xargs -Iv awk -F"," 'BEGIN{str=0}{str=str+$2}END{print FILENAME,str}' v > tmp2

rubyのワンライナーで日付に関して数値がないところを0で埋める.

ruby -r Date -ane 'BEGIN{h=Hash.new(0);s2=Date.parse("2015-04-08");s1=Date.parse("2006-11-01");};h[$F[1]]=$F[0]; END{(s2-s1).to_i.times.each{|j| v=(s1+j).to_s; print v+","+h[v].to_s+"\n";}}' tmp0 入力ファイル 268 2006-11-01 239 2006-11-02 …

ggplot2のqplotで簡単にきれなグラフ

R

事前にlibrary(ggplot2)はしておく x<-1:10 y<-2*x qplot(x,y,geom="line",xlab="date",ylab="count")+theme_bw(base_size=30) plot(x,y,type="b")は,geom=c("line","point") qplot(cc[4:length(cc)],exp(m1),xlab="Mean of start",ylab="Mean of 6 year ra…

mecabとrubyである単語の前後にある単語を取得

以下でなく連続ワード対応版を使う:: (1)node.feature.split(",")[6].encode("UTF-8","UTF-8") -> node.surfece featureだと未知語がでなくなる問題がある。 (2)複合語版を使うべき。 http://d.hatena.ne.jp/arupaka-_-arupaka/20150511/1431327544m…

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本]

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本] # -*- coding: Utf-8 -*- require 'MeCab' def get_feature_from_text(text1,mecab) list1=[] node=mecab.parseToNode(text1) while node.next != nil do node=node.next list1.push(n…

Rのggplotで両対数プロット 軸の目盛文字の大きさ 、10のべき乗の軸数字表示などのまとめ

以下の方法が楽かも q<-qplot((vs+vf)/2,sd2009_2010)+scale_x_log10(labels=trans_format("log10",math_format(10^.x)))+scale_y_log10(labels=trans_format("log10",math_format(10^.x)))+theme_bw(base_size=27) q<-q+xlab("Counts 2009")+ylab("S.D of r…

ggplotでグラフを書く例 (そのまま)

R

- library(ggplot2) x y p0 p0 print(p0) - 4行の図 - p1 p1 #+facet_grid(row=4) p12006-09-01"),y=70),label="(a)") #+facet_grid(row=4) p2tck=0.03,ylab="m(t)",geom="line") p2 p22006-09-01"),y=1.2),label="(b)") #+facet_grid(row=4)p3tck=0.03,yla…

Rのグラフ上での数式やギリシャ文字の表示 expression

R

基本的にはexpressionを使う.http://stackoverflow.com/questions/15736370/special-characters-and-superscripts-r-plot-axis-titles が参考になる.例えば, は, plot(1:10,ylab=expression(sqrt(delta~"V["~tilde(F)~"]"))) 区切り記号に~をつかっている…

リストに含まれる単語を数えるスクリプト

リストに含まれる単語をカウント f=open("food_list0_b.txt") food_list=[] id_list=[] f.each{|i| i.chomp! j=i.split(",") id_list.push(j[0]) ; food_list.push(j[1]) ; } #food_list.each{|i| puts i} #f2=open('buumu_kanrenbun3_str.csv') f2=open('bu…

cygwinでmysqlを起動と初期設定

http://takuya-1st.hatenablog.jp/entry/20120804/1346266936 を参考に. /usr/share/mysql/mysql.server start --skip-grant-tables たぶん権限関係でいろいろいわれるので、 以下のサイトを参考にする. Access denied for user ‘root’@’localhost’ (using…

wikipediaのカテゴリ以下の見出しワードのすべて取得

ruby-mysqlをインストール gem install ruby-mysql ユーザー名等はMYSQL内で SELECT user,host,password FROM mysql.user; 等で確認できる.ruby-mysqlを使ってみる. 以下 http://www.ownway.info/Ruby/ruby-mysql/about を参考に,mysqlライブラリの解説:…

sqlite3をcygwinにインストール(使用できる列数をふやす)

sqlite3はVersion 3.8.9. sqlite3は2000列しかデフォルトでは最大使えないので、 それを増やす。エラーコード `initialize': malformed database schema (TABLENAME) - too many columns on normalized_freq_time_series (SQLite3::CorruptException) 増や…

[sqlite3

cygwinに日本語係り受け解析器CaboChaをインストール

いろいろはまる。 大元: http://taku910.github.io/cabocha/ 事前に必要なもの CRF++ MeCab 0.98(MeCabは0.98インストール済みとして, 0.99系はうまくcygwinにインストールできず) CRF++のインストール (1)まずはソースの取得 google-codeがおかしくな…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinへのcabochaのインストール

http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_web からcrf++_0.58(最新版)をダウンロード。 ./configure --help…