データ整理

dplyr ですべての列から代表を抽出 数値とカテゴリカルの混ざったデータの整理

https://www.listendata.com/2016/08/dplyr-tutorial.htmlsummarise_ifとかsummrise_allとかのがよさげ 基本 x<-rnorm(1000) y<-rnorm(1000) z<-rnorm(1000) g<-sample(1:5,1000,replace=T) s<-data.frame(x,y,z,g) s%>% group_by(g) %>% dplyr::summarise_e…

Rでキー列ごとに代表の値をえたデータフレームをえる方法。(Rでキーがユニークになるように集約、 グループ代表値以外データフレームから削除する方法)

Rでキー列ごとに代表の値をえたデータフレームをえる方法。ユニークになるように集約 つまり、グループ代表値以外データフレームから削除する方法は、distinctを用いる. http://a-habakiri.hateblo.jp/entry/2016/11/29/215013 例:入力 a b c 1 1 3 1 1 4 …

awkで一列目を削除

awkで一列目を削除 echo "aa,bb,cc,dd" | awk -F"," 'BEGIN{OFS=","}{$1="\b";print $0}' ポイント \b(バックスペースで余計な","を消す) OFSで出力を","に参考: 逆引きシェルスクリプト/特定のカラムを削除し表示する・awkコマンド - Linuxと過ごす http:/…

rubyのワンライナー(一行野郎)でファイルの1行目に連続的に日付を付与

2014年2月1日が基準にすると、、 1010_ss.csv NA,NA,1,1 NA,NA,2,3 NA,NA,3,5 NA,NA,7,8 を 2014-02-01,2014-02-01,1,1 2014-02-02,2014-02-02,2,3 2014-02-03,2014-02-03,3,5 2014-02-04,2014-02-04,7,8 に変える. ruby -r "Date" -F"," -ane 'BEGIN{k=0}…

2つのディレクトリからリストに含まれるファイルをコピー

2つのディレクトリからリストに含まれるファイルをコピー以下のプロセス list1.txtに含まれるファイルは 行数1_s.csv からコピー ディレクトリは../../list1dir/list2.txtに含まれるファイルは 行数1_s.csv からコピー ディレクトリは../../list2dir/list3.…

gslを用いたC言語のランダムシャッフル

gslを用いたC言語のランダムシャッフル。 http://www.gnu.org/software/gsl/manual/html_node/Shuffling-and-Sampling.html #include<stdio.h> #include<gsl/gsl_rng.h> #include<gsl/gsl_randist.h> int main(){ const gsl_rng_type *T; int a[42]; int i; gsl_rng *r; T=gsl_rng_default; r=gsl_rng_al</gsl/gsl_randist.h></gsl/gsl_rng.h></stdio.h>…

pythonの辞書型(連想配列の)イテレータのまとめ。

pythonの辞書型(連想配列、ハッシュ型)イテレータのまとめ。 a[キー]=バリュー。 キーでイテレート a={} a["a"]=1; a["c"]=2; for i in a.keys(): print i; 値(バリュー)でイテレート a={} a["a"]=1; a["c"]=2; for i in a.values(): print i; 値(バリ…

awkであるネットワークを作る。

awkであるネットワークを作る。 BEGIN{ end123=10000; for(i=0;i

cytoscapeで ネットワークの可視化ソフト(インポート)

あとで、みつけましたが 下のページがわかりやすいです! http://web.sfc.keio.ac.jp/~iba/sb/log/eid95.html とりあえず可視化した場合。 cytoscapeでのテキスト形式データの 入力(インポート,import)のしかた。 例:二分木のネットワークデータ形式 tree.t…

 awkで複数のファイルを一列目をkeyに併合(マージ)。

awkで複数のファイルを一列目をkeyに併合(マージ)。 とても無理やり。 file1.txt 1 3 2 3 3 4 5 6 file2.txt 1 A 2 B 5 D file3.txt 1 a 2 b 3 c から、ファイルを併合し marge.csv 1,3,A,a 2,3,B,b 3,4,,c 5,6,D, を作成。awk -f heigou.awk file1.txt fi…

 tee 標準出力とファイルに同時書きだす。

teeというコマンドは 実行結果を標準出力とファイルに同時書きだすことが できる。 $echo "hello" | tee tmp hello $cat tmp hello $ls | tee tmp $cat tmp

Rですべての列にデータを含む行の抽出

Rですべての列にデータを含む行の抽出する。 具体的には、 NA(データなし)を含む列を除去する。 例えば、 1,,3 1,3,4 1,5,6 ,,3 1,3,5 1,2,3 1,2, のようなデータ から 1,3,4 1,5,6 1,3,5 1,2,3 のようにすべての列に値が入っている 上のようなデータを取…

 一列目と二列目の値が同じ行をひとつにまとめる。 

一列目と二列目の値が同じ行をまとめるスクリプト。例えば、次のようなファイルInputFile.csv 1,2,a,b,c,d 3,2,e,f,g,j 1,2,a,b,c,d 2,1,b,a,d,c 5,2,d,f,c,s を一行目と二行目の値が共通するもの をひとまとめにしたものに整理。 (一行目と三行目と四行目…

sortコマンド応用編:複数の列を優先的に並び替え。逆順並び替え。

sort並び替えの応用編2列目でまず並び替え3列目を数字で逆順に並び替える。gオプション、またはnオプション数字並び替え。rオプション、逆順に並び替え。 sort -k2,2 -k3,3gr [Filename]

ソートによるファイルの併合

tmp1 1 a 2 b 3 c 4 dtmp2 1 x 2 y 2 z 3 z 3 y 4 xout.txt 1 x a 2 y b 2 z b 3 z c 3 y c 4 x dを一列目のkeyで上のように併合する。 awk '{print $0,"a"}' tmp1 > tmp1b awk '{print $0,"b"}' tmp2 > tmp2bcat tmp1b tmp2b > tmp3 sort -k -k1.1n -k3 tmp…