dplyr ですべての列から代表を抽出　数値とカテゴリカルの混ざったデータの整理

dplyr データ整理

https://www.listendata.com/2016/08/dplyr-tutorial.htmlsummarise_ifとかsummrise_allとかのがよさげ基本 x<-rnorm(1000) y<-rnorm(1000) z<-rnorm(1000) g<-sample(1:5,1000,replace=T) s<-data.frame(x,y,z,g) s%>% group_by(g) %>% dplyr::summarise_e…

2017-01-08

Rでキー列ごとに代表の値をえたデータフレームをえる方法。（Rでキーがユニークになるように集約、グループ代表値以外データフレームから削除する方法）

R データ整理

Rでキー列ごとに代表の値をえたデータフレームをえる方法。ユニークになるように集約つまり、グループ代表値以外データフレームから削除する方法は、distinctを用いる． http://a-habakiri.hateblo.jp/entry/2016/11/29/215013 例：入力 a b c 1 1 3 1 1 4 …

2015-02-26

awkで一列目を削除

awk データ整理

awkで一列目を削除 echo "aa,bb,cc,dd" | awk -F"," 'BEGIN{OFS=","}{$1="\b";print $0}' ポイント \b(バックスペースで余計な","を消す) OFSで出力を","に参考：逆引きシェルスクリプト/特定のカラムを削除し表示する・awkコマンド - Linuxと過ごす http:/…

2014-09-06

rubyのワンライナー（一行野郎）でファイルの１行目に連続的に日付を付与

ruby データ整理

2014年2月１日が基準にすると、、 1010_ss.csv NA,NA,1,1 NA,NA,2,3 NA,NA,3,5 NA,NA,7,8 を 2014-02-01,2014-02-01,1,1 2014-02-02,2014-02-02,2,3 2014-02-03,2014-02-03,3,5 2014-02-04,2014-02-04,7,8 に変える． ruby -r "Date" -F"," -ane 'BEGIN{k=0}…

2013-08-21

２つのディレクトリからリストに含まれるファイルをコピー

ruby データ整理

２つのディレクトリからリストに含まれるファイルをコピー以下のプロセス list1.txtに含まれるファイルは行数1_s.csv からコピーディレクトリは../../list1dir/list2.txtに含まれるファイルは行数1_s.csv からコピーディレクトリは../../list2dir/list3.…

2010-12-18

gslを用いたC言語のランダムシャッフル

C データ整理

gslを用いたC言語のランダムシャッフル。 http://www.gnu.org/software/gsl/manual/html_node/Shuffling-and-Sampling.html #include<stdio.h> #include<gsl/gsl_rng.h> #include<gsl/gsl_randist.h> int main(){ const gsl_rng_type *T; int a[42]; int i; gsl_rng *r; T=gsl_rng_default; r=gsl_rng_al</gsl/gsl_randist.h></gsl/gsl_rng.h></stdio.h>…

2010-04-16

pythonの辞書型（連想配列の）イテレータのまとめ。

python データ整理

pythonの辞書型（連想配列、ハッシュ型）イテレータのまとめ。 a[キー]=バリュー。キーでイテレート a={} a["a"]=1; a["c"]=2; for i in a.keys(): print i; 値（バリュー）でイテレート a={} a["a"]=1; a["c"]=2; for i in a.values(): print i; 値（バリ…

2010-04-02

awkであるネットワークを作る。

データ整理 awk

awkであるネットワークを作る。 BEGIN{ end123=10000; for(i=0;i

2010-03-14

cytoscapeでネットワークの可視化ソフト（インポート）

データ整理ネットワーク可視化

あとで、みつけましたが下のページがわかりやすいです！ http://web.sfc.keio.ac.jp/~iba/sb/log/eid95.html とりあえず可視化した場合。 cytoscapeでのテキスト形式データの入力(インポート,import)のしかた。例：二分木のネットワークデータ形式 tree.t…

2010-01-24

　awkで複数のファイルを一列目をkeyに併合（マージ）。

awk データ整理

awkで複数のファイルを一列目をkeyに併合（マージ）。とても無理やり。 file1.txt 1 3 2 3 3 4 5 6 file2.txt 1 A 2 B 5 D file3.txt 1 a 2 b 3 c から、ファイルを併合し marge.csv 1,3,A,a 2,3,B,b 3,4,,c 5,6,D, を作成。awk -f heigou.awk file1.txt fi…

2010-01-24

　tee　標準出力とファイルに同時書きだす。

データ整理

teeというコマンドは実行結果を標準出力とファイルに同時書きだすことができる。 $echo "hello" | tee tmp hello $cat tmp hello $ls | tee tmp $cat tmp

2010-01-20

Rですべての列にデータを含む行の抽出

R データ整理

Rですべての列にデータを含む行の抽出する。具体的には、 NA（データなし）を含む列を除去する。例えば、 1,,3 1,3,4 1,5,6 ,,3 1,3,5 1,2,3 1,2, のようなデータから 1,3,4 1,5,6 1,3,5 1,2,3 のようにすべての列に値が入っている上のようなデータを取…

2009-10-31

　一列目と二列目の値が同じ行をひとつにまとめる。　

データ整理 awk

一列目と二列目の値が同じ行をまとめるスクリプト。例えば、次のようなファイルInputFile.csv 1,2,a,b,c,d 3,2,e,f,g,j 1,2,a,b,c,d 2,1,b,a,d,c 5,2,d,f,c,s を一行目と二行目の値が共通するものをひとまとめにしたものに整理。（一行目と三行目と四行目…

2009-08-17

sortコマンド応用編：複数の列を優先的に並び替え。逆順並び替え。

sort unix cygwin データ整理データ解析

sort並び替えの応用編2列目でまず並び替え3列目を数字で逆順に並び替える。gオプション、またはnオプション数字並び替え。rオプション、逆順に並び替え。 sort -k2,2 -k3,3gr [Filename]

2009-08-14

ソートによるファイルの併合

データ整理 unix データ解析

tmp1 1 a 2 b 3 c 4 dtmp2 1 x 2 y 2 z 3 z 3 y 4 xout.txt 1 x a 2 y b 2 z b 3 z c 3 y c 4 x dを一列目のkeyで上のように併合する。 awk '{print $0,"a"}' tmp1 > tmp1b awk '{print $0,"b"}' tmp2 > tmp2bcat tmp1b tmp2b > tmp3 sort -k -k1.1n -k3 tmp…