重回帰分析を行う際、一般的にはより少ない変数で(不要な変数を除いて)、回帰式を作れるようにします。
変数を選択する方法として、ステップワイズ法をRでやる方法について、メモとして記載します。
やり方は非常に簡単でした。
順番としては、
- 候補となる変数を全部組み込んだlm関数の式を作る
- その式をstep関数の引数として入れ、summary()で出力する。
なぜステップワイズ法を選択するのか
重回帰分析では、投入した全ての独立変数(説明変数)について、係数が有意か否かに関わらず対等に扱います。
各変数の係数は投入された他の独立変数の影響を統制したうえでの係数になります。
そのため、無関係な独立変数があった場合も、その無関係な独立変数の影響を考慮したモデルとなってしまいます。
強制投入法と呼ばれる通常の方法では、投入した変数を全て組み込むため、上記のような影響が生じます。
一方で、ステップワイズ法であれば、一定のルールにしたがって、独立変数を選別します。
ステップワイズ法を用いると、無関係な変数を除いた回帰式を作ることができます。
(なお、正確には、ステップワイズの1種類として、強制投入法があるっぽいです)
参考:IBMサポート「ステップワイズ」
ステップワイズ法をやってみる。
ダミーデータをもとにやりたいと思います。
で使った某賃貸物件の掲載サイトで出ていた物件の情報をもとに、ステップワイズ法で重回帰分析したいと思います。
物件 | 駅からの時間 | 部屋の広さ | 築年数 | 家賃 |
A | 8 | 40.29 | 14 | 10.2 |
B | 7 | 20.03 | 2 | 7.4 |
C | 10 | 29.74 | 13 | 8.1 |
D | 10 | 19.87 | 14 | 6.3 |
E | 9 | 22.48 | 15 | 6.4 |
F | 5 | 30.73 | 19 | 7 |
G | 8 | 54.47 | 38 | 10.79 |
H | 10 | 43.94 | 9 | 10.9 |
I | 10 | 38.03 | 14 | 10.3 |
J | 10 | 65.39 | 26 | 12.8 |
候補となる変数を全部組み込んだlm関数の式を作る
データをdatに入れたあと、以下の式で作成します。
reg<-lm(家賃~駅からの時間+部屋の広さ+築年数, data=dat)
ちなみに、前回の記事と同じデータなので、結果としては、「駅からの時間」は非有意でそれ以外の係数は有意です。
regをstep関数の引数として入れ、summary()で出力する。
以下のように入力して出力するとステップワイズ法で変数の選定がされます。
step.reg<-step(reg)
はじめに、全ての変数を投入した状態でスタートしていますが、
次のStepのところで、「駅からの時間」が除かれているのがわかります。
最後に summary()で結果を出力すると、ステップワイズ法によって選択された変数のみが入った重回帰式の結果が出ます。
summary(step.reg)
超わずかですが、R-squaredの値がちょっと上がってます。
まとめ
ステップワイズ法による重回帰分析をRで行う手順は以下の通りです。
- 候補となる変数を全部組み込んだlm関数の式を作る
- その式をstep関数の引数として入れ、summary()で出力する。