Rでカテゴリカルデータ回帰の勉強（質的データ）

Rでカテゴリカルデータでの勉強（質的データ）；数量化１類
（１）順番がつけられない質的データを考える。
　　　それを回帰する場合適切コーディングが求められる。
　＊コーディングによって回帰係数がかわり、結果の解釈がかわる。

(A）ダメなコーディング例1:

　　普通に数字を割り振ると、順番に意味がでてしまうので望ましくない。
　　　例）東京１、大阪２、名古屋３：

(B)ダメなコーディング例2:

それぞれにフラグを付けると順番の問題は防げるが、不定問題になるので定数項をいれると係数決められなくなる．
　　例)(u1,u2,u3):東京(1,0,0) 大阪(0,1,0), 名古屋(0,0,1)
(v1,v2):男(1,0), 女(0,1)

　　　　例えば、東京400円、大阪300円、名古屋200円とする、、
　　　　　　　　モデルがy=a1*u1+a2*u2+a3*u3 ならば、a1=400,a2=300,a3=200となるが、
　　　　　　　　モデルがy=a1*u1+a2*u3+a3*u3+C の場合ば、a1,a2,a3,Cの４変数で値は方程式３種類しかでないので不定問題になる（ノイズ0の極端場合で類推している）。　　　
　　　　　　　　　　

(B)基本：一つのデフォルト値を決めて２進数でコーディング
　　　例1：(u1,u2):東京(1,0), u2大阪(0,1), 名古屋(0,0)
例2:(v1): 男(1), 女(0):
　　　モデルをとすして、y=a1*u1+a2*u2+b1*v1+C で回帰すれば不定にならない。
　　　解釈として、Cは、名古屋+女+定数　を合わせた値となり、a1,a2は名古屋を基準として有意かどうか、v1は女に対して有利がどうかになり、解釈が難しくなる。名古屋+女の絶対的水準も不明になる。
　　
　　　例えば、東京0円追加、大阪0円追加、名古屋1000円追加だとしても、このモデルだと、東京と大阪が-1000で有意となってしまう可能性がある。　つまり、回帰の意味が名古屋に対してどうかが基準になってくる。　名古屋よりやすいことは確認できるが、男女の係数と比較した時にどうなるか？

真の構造
　　y=A1+A2+A3+V1+V2+CC とする。
　　　　　

(C)別の方法2 a1+a2+a3=0, b1+b2=0 と制限をいれる方法
->回帰係数のいみは、追加の値段の平均からのずれになる。これだと、上の例だと、-500,-500,500になり、東京と大阪、名古屋が有意にはなる。東京と大阪は真の構造では有意ではないが、やはり有意になるが、相対的に、名古屋が得というのはよくわかる。

(D)別の方法２、平均が０になるように、a1*ma1+a2*ma2+a3*ma3=０ b1*mb1+b2*mb2=0
ma1はカテゴリが東京のデータ個数、ma2はカテゴリが大阪のデータ数とすると、
Cは自動的に平均になる。　しかし、問題は、データ数に偏りがあるとき係数の正当性はいかに、
　データが多いほど係数の影響が小さくなる。

例えば、y- を係数0で回帰するといいのかも、、２×３で値６個で方程式６個に見える、
しかし、さいごの２つ以外みちびけるから、４つになって不定になる。

なんていうか（Ｄ）と（Ｃ）は、東京、大阪じゃなくて、東京に重みをおいた変数、大阪に重みを置いた変数を
つくるイメージ。男女の場合+1,-1 で、名古屋は計算でだす。