多変量回帰と相関 - arupaka-

多変量解析では、
（０）単独変数の調整
　(0-1)カテゴリ化すると楽 cut関数
(0-2)少なすぎる変数の除去
　
（１）説明変数間の相関を調べる
　　→とりあえず、主要っぽい変数を１０個くらいとりだすとわかりやすい
http://kusanagi.hatenablog.jp/entry/2014/07/23/220951
(1-1)ライブラリ

     library(psych)
     pairs.panels(dat)

cor.plot(tmp2)

→各変数がどういう情報をもっているか把握
（1-2）因子分析や主成分分析等で整理
　(1-3) 交互作用の調査
(1-4) 相関係数、ファイ、相関比を使う
　（１−５）３変数の依存

i tmp2<-d2
     d<-data.frame(y=tmp2$y,x1=as.numeric(paste(tmp2$MENSEKI)),x2=as.numeric(paste(tmp2$TIKUNENSUU)),x3=as.numeric(paste(tmp2$TINRYOU)))
     
     d2<-d%>% dplyr::filter( x1<=300 & x2<=100) %>% dplyr::group_by(x1=20*round(x1/20),x2=2*round(x2/2)) %>% dplyr:: summarise(z=length(y[!is.na(y)]),y=median(y,na.rm=T)) %>% dplyr::arrange(x2,x1)
     
     d3<-data.frame(d2[-3]) %>% tidyr::spread(key=x1,value=y)
     x_name<-d3[,1]
     d3[d3>=200]<-200
     #d3[d3<=10]<-10
     #image(x=1:length(d3[[1]]), y=as.numeric(names(d3[-1])),z=as.matrix(d3[,-1]),col=terrain.colors(100))
     #image.plot(x=1:length(d3[[1]]), y=as.numeric(names(d3[-1])),z=as.matrix(d3[,-1]),col=terrain.colors(100),zlim=c(0,200))
     image.plot(x=1:length(d3[[1]]), y=as.numeric(names(d3[-1])),z=as.matrix(d3[,-1]),col=terrain.colors(100),zlim=c(0,200),xlab="Ages",ylab="Area (m^2)")
      mtext(at=1:length(d3[[1]]),side=1,text=x_name)
     text(x=as.numeric(factor(d2[[2]])),y=d2[[1]],labels=d2[[3]])
     #contour(x=as.numeric(rownames(d3[,1])),y=as.numeric(colnames(d3[1,])[-1]),as.matrix(d3),nlevel=10,add=T)
     contour(x=1:length(d3[[1]]),y=as.numeric(names(d3[-1])),z=as.matrix(d3[,-1]),nlevel=10,add=T)
     ###

pairs.panels(tmp[,1:10])
fa.parallel(tmp[,1:10])

fa(r=tmp2[-1,-1],nfactors=7)
cv.test(y, v1)
interaction.plot
（２）説明変数と被説明変数の関係
(2-1) とりあえず、すべてカテゴリ変数化すると非線形までいける
(2-2) glm を使う　anova 等で説明力チェック
(2-3) stan 等でベイズ的に調整
（例1)：隣同士は同じあたりb(t+1)=b(t)+e(t)）
(例2): 事前分布→データ数少ない場合は平均でおきかえ
(2-4)カテゴリ変数は一つ0にしなきゃいけない。
(2-5)ラッソやグループラッソ。
(2-6)ダミー変数化にはdumiesパッケージが便利