Rでカテゴリカルデータでの勉強(質的データ);数量化1類
(1)順番がつけられない質的データを考える。
それを回帰する場合適切コーディングが求められる。
*コーディングによって回帰係数がかわり、結果の解釈がかわる。
- (A)ダメなコーディング例1:
普通に数字を割り振ると、順番に意味がでてしまうので望ましくない。
例)東京1、大阪2、名古屋3:
- (B)ダメなコーディング例2:
それぞれにフラグを付けると順番の問題は防げるが、不定問題になるので定数項をいれると係数決められなくなる.
例)(u1,u2,u3):東京(1,0,0) 大阪(0,1,0), 名古屋(0,0,1)
(v1,v2):男(1,0), 女(0,1)
例えば、東京400円、大阪300円、名古屋200円とする、、
モデルがy=a1*u1+a2*u2+a3*u3 ならば、a1=400,a2=300,a3=200となるが、
モデルがy=a1*u1+a2*u3+a3*u3+C の場合ば、a1,a2,a3,Cの4変数で値は方程式3種類しかでないので不定問題になる(ノイズ0の極端場合で類推している)。
(B)基本:一つのデフォルト値を決めて2進数でコーディング
例1:(u1,u2):東京(1,0), u2大阪(0,1), 名古屋(0,0)
例2:(v1): 男(1), 女(0):
モデルをとすして、y=a1*u1+a2*u2+b1*v1+C で回帰すれば不定にならない。
解釈として、Cは、名古屋+女+定数 を合わせた値となり、a1,a2は名古屋を基準として有意かどうか、v1は女に対して有利がどうかになり、解釈が難しくなる。名古屋+女の絶対的水準も不明になる。
例えば、東京0円追加、大阪0円追加、名古屋1000円追加だとしても、このモデルだと、東京と大阪が-1000で有意となってしまう可能性がある。 つまり、回帰の意味が名古屋に対してどうかが基準になってくる。 名古屋よりやすいことは確認できるが、男女の係数と比較した時にどうなるか?
真の構造
y=A1+A2+A3+V1+V2+CC とする。
(C)別の方法2 a1+a2+a3=0, b1+b2=0 と制限をいれる方法
->回帰係数のいみは、追加の値段の平均からのずれになる。これだと、上の例だと、-500,-500,500になり、東京と大阪、名古屋が有意にはなる。東京と大阪は真の構造では有意ではないが、やはり有意になるが、相対的に、名古屋が得というのはよくわかる。
(D)別の方法2、平均が0になるように、a1*ma1+a2*ma2+a3*ma3=0 b1*mb1+b2*mb2=0
ma1はカテゴリが東京のデータ個数、ma2はカテゴリが大阪のデータ数とすると、
Cは自動的に平均になる。 しかし、問題は、データ数に偏りがあるとき係数の正当性はいかに、
データが多いほど係数の影響が小さくなる。
例えば、y-
しかし、さいごの2つ以外みちびけるから、4つになって不定になる。
なんていうか(D)と(C)は、東京、大阪じゃなくて、東京に重みをおいた変数、大阪に重みを置いた変数を
つくるイメージ。男女の場合+1,-1 で、名古屋は計算でだす。