1.重回帰分析がうまくいかない場合
重回帰分析を行うとき、「説明変数の数がたくさんあればあるほど、より精度の高い分析ができる」というものでもありません。あまりに相関の高いデータ同士が含まれていると、1つのことを複数の説明変数で重複して説明していることになり、重回帰式の解釈を誤るリスクがあります。今回は、説明変数の間に相関が強いものを入れたために、解析がうまくいかなかったケースを考えていきます。
事例)例えば、都市部のマンション価格に影響している要因を調べたデータがあります。
説明変数は「駅からの徒歩時間」「駅からの距離」「築後年数」「土地面積」、目的変数が「価格」です。ここから、ある中古物件の価格を考えたいとします。重回帰分析をそのまま行なってもよいでしょうか?
まずは、このまま回帰分析にかけてみます。
※本来の正しいプロセスは、散布図を描いて、外れ値や相関の有無を視覚的に確認する、次に相関行列などで変数間の相関係数を求めるなど先にやるべきステップがあります。
[データ]タブの[データ分析]をクリックし、[分析ツール]を開きます。[分析ツール]の[回帰分析]を選択し[OK]をクリックします。
ダイアログに従い、[入力Y範囲]に価格のデータを、[入力X範囲]に駅からの徒歩時間から土地面積までのデータを指定し、[ラベル]にチェックを入れて[OK]をクリックします。
出力結果は以下になります。
結果を見て何かおかしいと思った箇所がありますか?
説明変数「駅からの距離」の回帰係数の符号に注目してください。「(正)の6.832」となっています。これは、「駅からの距離が遠くなるほど、価格にプラスの効果を与えている」という意味で。一般的に考えて、都市部では駅から離れるほど立地の面でマイナスになるため、マンションの価格は低くなりそうですが、この場合、符号がプラスになっています。
このように駅からの距離が特別プラス材料になるような原因が考えられない場合には、まず何かおかしいと思ってください。そのようなときは、説明変数と目的変数のすべての相関係数を確認してみます。
複数の変数の相関関係を求める場合、[データ]→[データ分析]のなかの、相関を使います。
ダイアログに従い、データを指定して相関係数を求めます。
ここで改めて回帰係数の符号(正か負か)を再掲します。
相関行列より目的変数の「価格」と説明変数の「駅からの徒歩時間」の相関は、-0.238と負の関係にあり、回帰分析の出力結果も同様に回帰係数は、-303.15と目的変数に対して負の影響がみられます。
駅から遠くなり徒歩時間が長くかかるほど物件の価値として下がってくるので負の影響があるというのは、感覚的にあっているかと思います。
次に、目的変数の「価格」と説明変数の「駅からの距離」に着目します。
こちらは、相関係数は-0.229と負の関係がありますが、回帰係数では、6.83と正の関係があります。駅からの距離が遠くなれば価格にマイナスの影響がありそうですが、回帰分析の結果は正の係数なので、駅からの距離が遠くなると、価格を上昇させる効果があるとおかしな現象になっております。
さらに、説明変数間の相関係数を考えます。
「駅からの徒歩時間」と「駅からの距離」は、相関係数が0.998と非常に強い関係があります。常識的に考えて、距離が長ければ歩く時間もかかるというのは理解できるかと思います。つまり、ここでは、同じような意味合いのことを2つの変数で説明してしまっていることになります。
このように、説明変数間に高い相関がある変数をとりこむことによって、回帰係数の符号と単相関係数の符号が一致しない式ができてしまうことを「多重共線性(英語のmulticollinearityを略してマルチコとも呼ばれます)の問題と呼びます。
2.多重共線性への対応方法
多重共線性がある場合の対処法は、相関の高い変数の内、どちらか一つを削除します。
「駅からの徒歩時間」と「駅からの距離」では、どちらの変数を削除するかは、目的変数への影響の強さで判断します。正であり負であり、目的変数への影響がより多い方を残し、少ない方は削除します。
このケースではわずかな差ですが、相関の程度がより強い、「駅からの徒歩時間」を残して、「駅からの距離」を削除して、再度分析した方が良いということになります。
まとめ
多重共線性は、その他にも以下のような特徴があります。
≪説明変数間の相関係数が1または-1になる場合≫
・回帰係数が求まらない
≪説明変数間の相関係数が非常に高い場合≫
・回帰係数と単相関係数(説明変数と目的変数)の符号が一致しない
・変数選択の際に回帰係数の値が大きく変動する
執筆者情報
末吉正成(すえよし・まさなり)
株式会社メディアチャンネル 代表取締役。www.media-ch.com
道具としてのビジネス統計を用いて大学や自治体のWEBコンサルテーションを行う。
著書に『EXCELビジネス統計分析(ビジテク)』(翔泳社)、『EXCELマーケティングリサーチ&データ分析』(翔泳社刊)、『Excelでかんたん統計分析』(オーム社刊)、『事例で学ぶテキストマイニング』(共立出版刊)、『Excelでかんたんデータマイニング』(同友館刊)、『仕事で使える統計解析』(成美堂出版刊)、『見せる統計グラフ』(秀和システム刊)他がある。
ご意見やご感想をお寄せください
データ活用なうでは、今後もより皆さまのデータ利活用に寄与するために、さまざまな専門家の方にその知見を伺い、発信してまいります。
今回の記事がためになった、実務に役に立った方は、ぜひいいね!やシェアをお願いします。
また、筆者の方へご意見・ご感想がありましたら、コメント欄や下記からお問い合わせください。
「ビジネスを成功に導くデータ活用術」連載バックナンバー
今回も前回に引き続き、末吉正成さん「ビジネスを成功に導くデータ活用術」をテーマに執筆いただきました。
データマイニング、データサイエンス、機械学習、AI等々言葉が先行しがちな昨今ですが、時流に流されず、地に足をつけたデータ活用をおこなうための考え方、フレームワーク、そして使い方の注意点などをご紹介いただいております。ぜひご覧下さい。
#006 要因と予測問題を解く①「店舗の売上に影響を与えている原因を探る:重回帰分析」
#007 要因と予測問題を解く②「回帰モデルを使って新しい店舗の売り上げを予測する:重回帰分析」
#008 重回帰分析の落とし穴~多重共線性の問題~「駅からの距離が遠いほど高いマンションの価格?」
#EX テキストマイニングはじめの一歩 ~文章データから新たな仮説を導く~