機械学習

線形回帰分析について基本的なことをまとめた

今日は回帰分析に関して基本的なことをまとめていきます。

yaaku

回帰とか久々…

単回帰?重回帰?

まず回帰分析では線形か非線形かで分類ができます。

今回は線形回帰分析である

・単回帰分析

・重回帰分析

に関してまとめていきます。

単回帰分析に関して

単回帰分析とは1つの説明変数で1つの独立変数を予測するモデルとなります。

例えば会社の従業員の給料と各人の経験年数のデータがあるとしたとき

給料をy軸、経験年数をx軸にとり、線形回帰ができるとすると次のような直線が引けます。

 

yaaku

赤い線どうやって引いた…?

経験から給料を予測する赤い線は残差(予測値と実際の値)の和を最小にする最小二乗法という方法で引きます。

重回帰分析とはなにか?

次に重回帰分析ですが、これは2つ以上の説明変数を用いて独立変数を求める方法となります。

単回帰と同様に最小二乗法で計算されるのが一般的となります。

n次元のグラフを書くことは難しいのでイメージがしにくいですね。

重回帰では多重共線性(Multicollinearity)が発生する

重回帰分析では多重共線性という現象が発生します。

これは変数同士が相関を持っている場合に発生する現象です。

例えば次の日の株価を予測しようとした時に、前日比陽線の幅などいれると相関が大きくなり多重共線性が発生します。

 

yaaku

何が問題なんだろう?

 

調べると…

1.分析結果における係数の標準誤差が大きくなる

2.t値が小さくなる

3.決定係数が大きな値となる

4.回帰係数の符号が本来なるべきものとは逆の符号となる

(https://xica.net/vno4ul5p/)から引用

要は係数の値の信頼性がなくなり説明力が減るとのことでした。

質的データではダミー変数を使う

世の中のデータは大きく質的データ量的データに分けられます。

 

質的データを用いる場合はダミー変数を用います。

yaaku

ダミー変数…?

 

以下ダミー変数の説明になります。

コラムを追加して、0と1のダミー変数を追加することにより、質的データを数式に組み込むことができました。

 

yaaku

カテゴリーは2つあるのに、ダミー変数が1個しかないのは何故だろう?

ダミー変数によるダミートラップに関して

ダミー変数は質的データを量的データに変換できるのでとても使いやすそうですが、

ダミー変数の数は質的データの種類-1にする必要があります。

 

yaaku

何故…?(2回目)

例えばダミー変数をカテゴリーの種類の数だけ入れると、下のにようになります。

しかし、この時ダミー変数には以下の関係が成り立ちます。

なのでダミー変数をカテゴリーの数と同じ分だけ入れてしまうと総和が一定であると関係式より相関が生まれ、最初に説明した多重共線性が発生してしまいます。

まとめ

基本的なことで退屈だったかもしれませんが、何年かぶりに回帰とか見たので先行きが不安ですが後で振り返ってレベル低いな~と思えるように頑張ります。