ビジネスを成功に導くデータ活用術 #006 要因と予測問題を解く①「店舗の売上に影響を与えている原因を探る:重回帰分析」

データ形成・整備・開発

はじめに

前回は、単回帰分析を使って、2種類のデータ(説明変数は1種類)の関係を探りました。単回帰分析では目的変数(y)と説明変数(x)の関係を「y=a+bx」(a=切片、b=回帰係数)で表しました。今度は、目的変数(y)に影響を与えると思われる説明変数が複数あるケースを分析していきます。説明変数が2つ以上ある回帰分析を「重回帰分析」といいます。

画像に alt 属性が指定されていません。ファイル名: 1399509_s.jpg

【事例/売上に影響を与えている要因】
渋谷エリア20店舗を統括するコンビニチェーンのマネージャーは、売上が落ち込む原因についてリサーチしています。売上と関連がありそうな要因として、次の4つを考えました。

①接客
②品揃え
③面積
④立地

接客と品揃えについては、調査を実施し、20店舗についてそれぞれ、

5.とても満足している
4.やや満足している
3.どちらもともいえない
2.やや不満
1.かなり不満

と5段階で評価しました。(※1)
それが次の表です。

※1. 接客と品揃えのデータは、元々は「5.とても満足している 4.やや満足している 3.どちらもともいえない 2.やや不満 1.かなり不満」の中から選択されたデータなので、カテゴリーデータですが、とても満足している→5点、やや満足している→4点…とスコア化することで数量データとして扱うことができます。

接客と品揃えのスコアは、調査した期間の各店舗の平均値を表しています。立地は駅からの距離を表しています。さらにこのマネージャーは、分析結果をもとに新店舗の初台店の売上高を予測したいと考えています。

1.重回帰分析とは

このケースのようにあるデータに影響を与えていると考えられる要因(説明変数)が複数ある回帰分析のことを「重回帰分析」といいます。重回帰分析のポイントは、ずばり要因分析予測分析です!

【重回帰分析で学ぶこと】
今月から3回にわたって解説していきます

1.売上に効いている要因を探す:要因分析 第6回(本記事)
2.最適な回帰モデルを求めて新しい店舗の売上を予測する:予測分析 第7回
3. 重回帰分析の注意点:多重共線性の問題 第8回

売上高に影響を与えている要因が何かを探る「要因分析」

目的変数y(ここでは売上高)に影響を与えている説明変数を探す分析手法です。本当に効いている要因を分析することで、改善の優先順位を決定する判断材料にできます。

要因分析結果

重回帰式を使って予測値を求める「予測分析」

単回帰分析の場合、「y=a+bx」(a=切片、b=回帰係数)で回帰式が表せました。今度は、説明変数が複数ありますので、

y=a+b1x1+b2x2+b3x3…+bnxn

と表現します。

重回帰分析の結果、(求め方は後述)

分析結果の表より以下の重回帰式を得ます。

売上高=66.38+133.58×接客+80.09×品揃え-43.56×立地

といった重回帰式を導き出すことができます。新しく店舗を展開する場合など、説明変数に数値を代入することで、おおよその売上高を予測できます。

求めた最適な回帰モデル(モデル式の求め方は次回説明します)に代々木上原店の各スコアを代入すると、新しい店舗の売上予測は、899.26(千円)!となります。

では、これから具体的に要因分析から始めていきましょう。

2.重回帰分析の手順と要因分析

単回帰式同様に分析ツールの[回帰分析]を用いることで、目的変数(売上高)に最も影響を与えている要因を探します。

重回帰分析の手順

2-1.[データ]タブの[データ分析]をクリックし、[分析ツール]を開きます。[分析ツール]の[回帰分析]を選択し[OK]をクリックします。

2-2.ダイアログに従い、[入力Y範囲]に売上高のデータを、[入力X 範囲]に接客から立地までのデータを選択します。ラベルを含んでいますので、[ラベル]にチェックを入れて、[OK]をクリックします。

2-3.出力結果と見方

出力結果の見方
たくさんの指標がありますが、ここでは、特に以下の4つを押さえるようにしましょう!

①回帰関係の有意性
②回帰係数と回帰式
③回帰係数の有意性
④寄与率

①回帰関係の有意性
回帰によるばらつきと、残差のばらつきを統計的に比較して、回帰式の意味がどれぐらいあるかを検定した結果を示しています。有意性とは、情報として有用な意味があるかどうかということです。有意Fとは、回帰の分散の大きさを統計的に判断した結果を示す数値です。確率分布(F分布)上での確率値を示しており、この数値が小さいほど回帰の分散が残差の分散に対して大きい、つまり回帰で求めた回帰式の意味が大きいことを示します。通常0.05(=5%)以下であれば回帰の分散が十分大きいと判断します。
このケースでは、3.44E-05なので、0.05よりも小さいので回帰式を求める意義は十分あります。

②回帰係数と回帰式
売上高を求める重回帰式は、単回帰式の時と同様に係数の数値を用います。
売上高=130.20+132.92×接客+90.87×品揃え-3.49×面積-42.65×立地
となります。

③回帰係数の有意性
t:係数をその標準誤差で割った数値で、各係数に対応する変数が統計的にどれぐらい目的変数yに影響しているかを示す数値です。t値は理論的に、-∞から+∞の値をとります。t値の絶対値が大きいほど重回帰式に取り入れても大丈夫ということです。実務的には、tの絶対値が1.4以上あれば効いている変数で、変数「面積」の0.62のようにゼロに近くなるとあまり効いていない変数と判断します。

※係数も影響度の指標として使えそうですが、単位の影響を受けるので影響度としては使えません(後述します)。

【ここがポイント!】
目的変数に対する影響度はtの絶対値を見る!
tの絶対値の値が大きいほど、目的変数に対する影響度が大きくなる

④寄与率
重決定R2:重相関係数を2乗した値で、重決定係数(または寄与率)といいます。回帰式によって全データの何%を説明変数で表現できているかを示します。重相関係数と同様に回帰式に含まれる変数が多いほど値が大きくなるという傾向をもちます。

⑤補正R2
重相関係数や重決定係数が持つ変数が多いほど値が大きくなる傾向を修正した数値で、自由度調整済寄与率といいます。重決定係数R2から次の式で求められます(ここで はデータ数、 は説明変数の数です)。

2-4.要因分析
売上高に効いている要因は何か?
影響度の指標であるt値を縦棒グラフで視覚的に捉えます。

[接客]から[立地]、それに対応するtのデータ範囲を指定して、[挿入]タブの[グラフ]の中から[2-D縦棒]グラフを選択します。

グラフ出力結果

影響度の大きさはtの絶対値で判断します。この場合「接客>品揃え>立地>面積」の順で、売上高に影響を与えていることが分かりました。時間とコストは有限です。ある問題が起きたとき、限られたリソースを改善のためにどこに投入すべきか、優先順位をつける際の目安になります。

3.重回帰分析の注意点

回帰係数を影響度に使えない理由とは?

目的変数に影響を与える指標として、tの絶対値を参照しました。なぜ回帰係数をそのまま影響度の指標として使えないのでしょうか? 簡単にシミュレーションしてみます。

下の図は、説明変数の1つ立地の単位をkmからmに変更したものです。

以下、出力結果です。

・立地(単位:km)の場合

・立地(単位:m)の場合

kmからmへ単位を変えると、数値の上では桁が1000倍(0.3km→300m)に変わります。この場合、tの値は変わりませんが、回帰係数の値は、-42.65が-0.04265と1/1000倍になります。よって単位の影響を受ける回帰係数は影響度の指標としては利用できません。そこでt値(係数を標準誤差で割っているので単位の影響を受けません)を影響度の指標として用います。統計の教科書によっては、回帰係数を標準化した標準偏回帰係数という指標を使うこともありますが、Excelではサポートされていないので、t値を影響度の指標として用います。

重回帰分析を行う際の注意点

→サンプル数は説明変数の数よりも多めにとろう!

サンプル数をn、説明変数の数をkとしたとき、n-k-1>0を満たさなければ重回帰式は求められません。できるだけn とkの差に余裕が出るようにサンプル数を多くした方がよいでしょう。

Excelの仕様制限

→説明変数の数は16個まで。

分析ツールの[回帰分析]は、ソフトの仕様上、説明変数(xの範囲)は16個までと制限があります。あまりたくさん変数を用いることは、次以降で説明する多重共線性という問題もありますので、16個という制約で実務上はそんなに問題はないでしょう。むしろ、説明変数を吟味(=仮説の設定)することなく、とにかく何でも変数として放り込んで、出力された結果を後知恵で解釈するというのは分析の手順としてあまりお勧めしません。

それでは、次回は、重回帰式(特に最適な回帰モデル)を使って予測分析を行っていきます。

執筆者情報

末吉正成(すえよし・まさなり)
株式会社メディアチャンネル 代表取締役。www.media-ch.com
道具としてのビジネス統計を用いて大学や自治体のWEBコンサルテーションを行う。

著書に『EXCELビジネス統計分析(ビジテク)』(翔泳社)、『EXCELマーケティングリサーチ&データ分析』(翔泳社刊)、『Excelでかんたん統計分析』(オーム社刊)、『事例で学ぶテキストマイニング』(共立出版刊)、『Excelでかんたんデータマイニング』(同友館刊)、『仕事で使える統計解析』(成美堂出版刊)、『見せる統計グラフ』(秀和システム刊)他がある。

ご意見やご感想をお寄せください

データ活用なうでは、今後もより皆さまのデータ利活用に寄与するために、さまざまな専門家の方にその知見を伺い、発信してまいります。
今回の記事がためになった、実務に役に立った方は、ぜひいいね!やシェアをお願いします
また、筆者の方へご意見・ご感想がありましたら、コメント欄や下記からお問い合わせください。

それでは、次回の記事にもご期待ください!

「ビジネスを成功に導くデータ活用術」連載バックナンバー

今回も前回に引き続き、末吉正成さん「ビジネスを成功に導くデータ活用術」をテーマに執筆いただきました。

データマイニング、データサイエンス、機械学習、AI等々言葉が先行しがちな昨今ですが、時流に流されず、地に足をつけたデータ活用をおこなうための考え方、フレームワーク、そして使い方の注意点などをご紹介いただいております。ぜひご覧下さい。

#001 解析設計とプロセスの重要性

#002 相関の落とし穴

#003 相関係数の仕組みを知る

#004 改善の優先順位を決める

#005 過去のデータから未来を予測する

#006 要因と予測問題を解く①「店舗の売上に影響を与えている原因を探る:重回帰分析」