多変量回帰のチェック - arupaka-

多変量回帰で共通した情報を持つ場合は、
共通した情報程度の係数になる。　ただし、AIC Step wise などを使うとノイズによって
不安定になり、片方に集中することも。。 Ridge回帰なら両方の変数を選んでくる。

例えば、
a1=情報１＋0.2情報２
a2=情報1+0.3情報3

で、y=情報１＋情報２

なら、a1の回帰係数のが少し大きくなる。

もし、片方に回帰係数が寄った場合、ランダム誤差か、それとも、情報１の割合が
大きく、情報３の割合がちいさかったからか？　yへの

情報もってるからといって、回帰係数がおおいとは限らない。
回帰係数が真に大きい潜在変数に近いほうが回帰係数が大きくなる。
b1が増えて、b2=0が増えたとき、a1とa2がどれくらい増えるか連立方程式で計算。それをもとに係数が決められる。

library(glmnet)
a1<-rexp(1000)
a2<-rexp(1000)
a3<-rexp(1000)
b1<-0.9*a1+0.05*a2
b2<-0.9*a1+0.06*a2

y<-3*a1+0.1*a2+0.0*a3+1*rnorm(1000,sd=1)

ans<-lm(y~b1+b2)
coef(ans)
step(ans)

ans0<-lm(y~1)

step(ans0,direction=c("forward"),scope=list(upper="y~b1+b2",lower="y~1"))


#Lasso
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 1)
coefficients(fit.glmnet.lasso.cv)

#Ridge
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 0)
coefficients(fit.glmnet.lasso.cv)


a1<-rexp(1000)
a2<-rexp(1000)
a3<-rexp(1000)
b1<-0.9*a1+0.03*a2
b2<-0.9*a1+0.03*a3

y<-3*a1+0.1*a2+0.1*a3+1*rnorm(1000,sd=1)

ans<-lm(y~b1+b2)
coef(ans)
step(ans)

ans0<-lm(y~1)

step(ans0,direction=c("forward"),scope=list(upper="y~b1+b2",lower="y~1"))


#Lasso
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 1)
coefficients(fit.glmnet.lasso.cv)

#Ridge
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 0)
coefficients(fit.glmnet.lasso.cv)




a1<-rexp(1000)
a2<-rexp(1000)
a3<-rexp(1000)
b1<-0.9*a1+0.5*a2
b2<-0.9*a1+0.03*a3

y<-3*a1+0.1*a2+0.1*a3+1*rnorm(1000,sd=1)

ans<-lm(y~b1+b2)
coef(ans)
step(ans)

ans0<-lm(y~1)

step(ans0,direction=c("forward"),scope=list(upper="y~b1+b2",lower="y~1"))


#Lasso
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 1)
coefficients(fit.glmnet.lasso.cv)

#Ridge
fit.glmnet.lasso.cv <- cv.glmnet(as.matrix(cbind(b1,b2)),y,alpha = 0)
coefficients(fit.glmnet.lasso.cv)

3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept) -0.1048879
b1           0.7910052
b2           2.2927133