質的データのまとめ(カテゴリカルデータ)

  • 用語
    • 目的変数のグループのことを「群」という
    • 目的変数1つ2群数量化二類
    • 目的変数多数:多群数量化二類
      • 3群->2軸で表示、クラスタ中心からの距離等で分類
      • カテゴリスコア(回帰係数)は軸ごとにでる、その要因がどの程度各軸っぽいかを表す。たとえば、新規性は信長とほかのをわけるのに役立つ的な。解釈はコーディングに依存する。
        • (1,0),(0,1),(0,0)、
        • 軸の意味はコーディングに依存:例:家康|その他軸, 信長|その他軸
        • 軸は相関比の最大化でつくる(主成分成分的なの)?
        • 説明変数から1軸のどの位置にあるか?2軸にどの位置にあるかを予測
          • 1要因に2軸つかうと、
            • y1=a11*x1+a12*x2,
            • y2=a21*x1+a22*x2 -> y1=-y2のため、a11=-a21 になって無駄.
          • 2要因に3軸使うと,,
            • y1=a11*x1+a12*x2+a13*x3
            • y2=a21*x1+a22*x2+a23*x3
            • y3=a31*x1+a32*x2+a33*x3
              • y1=0,y2=0->y3=1
    • 要因がカテゴリと量的が混ざる
      • 拡張型数量化2類
  • 数量化2類は基本は,教師データと要因から作ったサンプルスコア(上えいうyの値、予測値)の相関比が最大になる係数を選ぶ手法
    • ある手法でコーディングした線形回帰モデルと同値
    • 判別最大値
  • データ表示:

群別クロス集計

全体10
群1 個体数4
群2 個体数6


もしくは、

    群1  群2 全体
立地 良い  2 7 9
   普通 3 2 5
   悪い 4 8 12
値段 高い 5 5 10
   安い 4 12 16

など

  • 判別分析: 判別的中点
  • 相関
    • 質×質: クラメール連関係数

クラメール連関係数:相関がない場合からのずれのカイ二乗値で評価:
→x^2=Σ(実測-クロス表に関連がない場合の期待度数)^2/期待度数
→sqrt(x^2/n*(k-1)) で0~1の相関係数となる。

イメージ: 0.5以上非常に強い、0.25~0.5 関連性あり, 0.1~0.25 弱い関連性, 0.1未満 関連性なし

    • 質×量: 相関比 
      • カテゴリで群にわけ、分散分析し、全体変動のうち群間変動がしめる割合を計算する
      • η^2=B/T^2 B:群間変動, T:全体変動
  • モデル選択

(1)AIC
(2)CAIC
(3)マローズのC_p基準
(4)修正CpのMC_p 基準
(5)Pe基準(Predction error)

  • 回帰:
    • (1)回帰係数:カテゴリスコア
      • (a)グラフにして表示 (カテゴリスコアグラフ:
        • 横軸:係数(+に優良店、 -側に不良点 とラベル名を書く) 
        • 縦軸項目、カテゴリごとに、立地:良い、悪い、価格:安い、悪い、普通、など)
        • 量的変数の場合は 係数×距離区分にして、質的っぽく表示するとわかりやすい。
      • (b)多変量の場合
        • 横軸
        • 縦軸
        • スコアグラフ
    • 変数選択
    • 追加情報検定を利用した逐次選択法
      • 追加情報検定:F検定、(自由度等を考慮したモデル相関比-追加情報を考慮したモデルの相関比)/元の相関比 的な量で検定
      • 一変数で相関比最大ものを選ぶ, 次に、それをあたらに変数を加え1変数と比べて有意に相関比があがったものを採択,次に,それを加えるを繰り返す。有意でなくなれば終了
      • 最後に、選択で出来たモデルから、各要因を除いて有意かを確認し、とりこんだ要因がすべて効いてるかを確認する。
  • 多群の場合
    • 他群
      • 群1の軸1のサンプルスコア, 軸2のサンプルスコア
      • 群2の軸1のサンプルスコア, 軸2のサンプルスコサ
      • 群3の軸1のサンプルスコア, 軸2のサンプルスコサ

という感じになる。
各軸のサンプルスコアの郡内変動/全変動を各軸の相関比が得られる.

        • 分類かいらない
      • 軍間の行列式が全体のサンプルスコア。
      • 群間行列: 対角軸;その要因と全体平均のずれ、非対角:ある要因が中心からずれたとき、もう一つの要因がずれるかななどの相関。
      • 使えそう。。サンプルスコアの中心からのブレ具合を相対的に表現
      • 多変量正規分布でイメージすればよさげ。
  • 分散分析は軸の概念ないから、かってに相関比の高い軸をえらぶのがポイント

参考:
質的データの判別分析: 数量化2類 菅民郎 ほか