Pocket

■ 「相関分析」のお作法をおさらい

管理会計(基礎編)

前回」は、「相関係数」なるものを使って、2つの数値の関係度を評価することで、分析対象値の時系列での推移の理由を探る手法を説明しました。
⇒「成長性分析(7) 相関分析

今回は、「相関分析」から出発し、将来予想につなげる「単回帰分析」という手法を説明します。「成長性分析」は過去の業績を点検し、成長戦略のポイントを確認し、将来の成長速度を予想することで、各種経営計画のベースとなることを期待されている、と筆者は考えるからです。

ここで、「相関分析」のお作法をおさらいしておきます。将来予想のための「単回帰分析」に思考をつなげるために、きちんと確認しておきたいので。

「相関分析」を実施する時のお作法
① 連動性(相関)を分析したい2つのデータを選択する
② 2つのデータ間の連動性(相関)の仮説を立てる
③ 2つのデータ間の相関係数を求める
④ 「散布図」で視認する
(初歩の時は、目視で外れ値を探し出し、外れ値を除外してもう一度相関係数を求め直す)
⑤ 上記②の仮説を検証する
(ハズれた時はハズれた理由、当たった時は当たった理由を明確にします)

「単回帰分析」による将来予測の前に、なぜ、「相関分析」のお作法を確認したのか? それは「相関分析」における仮説検証において、2つのデータの連動性が明らかになって、かつ連動性の要因(意味)まで分かった時、初めてその関係性が将来予測に使えるかどうかが判断できるからです。

 

■ しつこいのですが「相関関係」と「因果関係」は違います

読者の皆さんは、Amazonや楽天などのショッピングサイトで、お買い物をしたことはないでしょうか? その後、何気にAmazonや楽天などのサイトを再訪した際、似たような商品をお勧めする広告を目にするかと思います。あなたのサイト訪問履歴を「Cookie」から読み取り、ビッグデータを用いて、同じ購買層が購入した商品をあなたに「レコメンデーション」しているのです。この「同じ購買層」とか、「似たような商品」という消費者や商品を似た者同士でグルーピングする技術に「相関分析」が使われています。

「商品Aを閲覧・購入する人は、商品Bを閲覧・購入する確率が高い(正の相関が高い)」とプログラムで判断します。

この時、「あなた」や「あなたが買った商品」という情報は、数多くある統計上のサンプルデータに過ぎません。どのデータがメインで、どのデータがサブということはありません。しかし、「単回帰分析」は、「正の相関」や「負の相関」が高いもの同士、2つのデータを扱う所までは同じですが、2つのデータ間には明確な主客関係が存在するのです。

あなたがどうにか操作して結果を出したいデータを「目的変数(Y)」(売上高など)、あなたが結果を出したいデータの増減に影響を及ぼすデータを「説明変数(X)」(顧客訪問回数、広告宣伝費など)として位置づけます。

この時、「目的変数」と「説明変数」の間には、たまたまそうなったという「相関関係」を超えて、「説明変数」がどれだけ動いたから、その帰結として「目的変数」がこれだけ動いたという「因果関係」が見つかるはずです。

(原因)顧客訪問数を増やした。広告宣伝費を増やした。平均気温が上がった。
       ↓
(結果)売上高が増えた。

ここで確認。上記「原因」のところに、「平均気温の上昇」を例示していますが、神でない限り、「地表上の気温」を人間がいともたやすく操作できるとは思えません。しかし、平均気温の上昇が見込める場合、例えばアイスクリームを増産する、販売員を増やす、などといった手を打ってアイスクリームの売上高を延ばすことができます(販売機会のロスを最小化)。また、「天候デリバティブ」という金融商品を買うことで、売上増減のリスクを最小化することもできます。

「単回帰分析」は、「目的変数(Y)」(最終的に予測したいこと)を、「説明変数(X)」(Yの変動の原因となること)の変化量に基づき、「リニア、直線、一次関数」で表現し、Xの値が分かれば、Yの値が予想できるという計算式を求めることです。

私見ですが、統計学のツールに振り回されるのではなく、ビジネスのストーリーや戦略・施策をしっかり持って、こうした統計的手法を使用するという姿勢が重要であるということです。よって、学問的に多少解釈が間違っていたとしても、ビジネスとして有用だと思えるなら、積極的に取り入れていくべきだと考えます。

ということで、次章では前回集めた統計データを使って、いよいよ「単回帰分析」を始めます。

 

■ 本当はトヨタの生産台数で単回帰分析やりたかったのですが。。。

前回の説明で、トヨタの月次生産台数の変化と、TOPIX以下、6つの統計量で相関分析を行いました。「生産台数」を「目的変数(Y)」にするつもりで、前回提示した散布図は、全て「生産台数」がY軸にプロットされているはずです。しかし、筆者が用意した相関関係では、最高で「鉱工業指数」の相関係数が「0.548」とそれほどの相関が無かったので、これで単回帰分析するのは面白くない。

そこで、せっかく集めたデータ同士で高い相関関係が認められるものは無いか探したところ、ありました。「TOPIX」と「円ドルレート」です。相関係数も「0.628」。

財務分析(入門編)_単回帰分析_散布図_TOPIXと円ドルレート

しかし、一昔前まで円高基調により、国内製造業が空洞化(海外に生産拠点を移転)し、円安が必ずしも企業業績にプラスに働らいていない、という論調もあります。そこで、さらにデータを絞って、円安基調になった2012年11月~2015年3月のデータで、もう一度「TOPIX」と「円ドルレート」の相関係数を求めてみます。なんと「0.957」にまで高まりました。

財務分析(入門編)_単回帰分析_散布図_TOPIXと円ドルレート(2012・11~)

こうなったら、「TOPIX」と「円ドルレート」で「単回帰分析」させてください。しかし、問題となるのは、どっちを「目的変数」とするか? これは統計学の学問上の定義より、ビジネス目的に従って決まるものと考えますので、いったん株式売買を生業としている投資家の立場に立って、「TOPIX」を「目的変数(Y)」、「円ドルレート」を「説明変数(X)」とします。円ドルレートがどれだけ変位すれば、株価がいくらいくら動くのか、予想がつけば、投資家は、為替ヘッジをしたり、オプションや先物といった金融商品を事前に購入する材料にしたりできます。

ではどうやって「単回帰線」求めるか? 一番簡単な方法は、Excelで「TOPIX」をY軸に、「円ドルレート」をX軸に置いた「散布図」をグラフ機能で作成します。グラフに表示される点を右クリックして、「近似曲線の追加」というメニューを選んで、「線形近似」のラジオボタンを選択、開いた設定画面で「グラフに数式を表示する」にチェックマークを入れると、下記のようなグラフが得られます。

財務分析(入門編)_単回帰分析_単回帰直線_TOPIXと円ドルレート(2012・11~)

Y(TOPIX)= 17.56X(円ドルレート)- 587.19

Xに想定するドルレートを代入すれば、少なくとも2012年11月以降の直近2年5か月間の値動きをベースとした将来株価指数の予測ができるようになります。

グラフをいちいち作図するのは面倒だという方には、ダイレクトにExcel関数で、上記の一次関数の「傾き」と「切片」を求めることができます。

「傾き」(17.56)
= slope(Yの数列, Xの数列)

「切片」(-587.19)
= intercept(Yの数列, Xの数列)

ここで数列というのは、Excelのスプレッドシートに打ち込んだ数字の並びを指し、縦でも横でも、セル範囲指定でどうにでもなります。

 

■ 「単回帰直線」の原理と使用にあたっての留意点

なにか、Excelを使って、一次式が出てきたが、いまいち信憑性が感じられない、かといって統計学の教科書を読むのは面倒だ、というあなたには、なぜこの直線が求められるのか、直観的に理解できるように図解しておきます。

財務分析(入門編)_単回帰分析_単回帰直線の求め方

点A、点B、点Cの3つだけしかデータが無いと仮定した場合、それぞれの点からの距離が最小になる直線を引こうとします。この直線が3つの点の分布を一番よく表す直線になるはず。それぞれの点から一本の線を引く場合、線の上下に点が出てしまうで、座標同士の距離を計算すると、マイナスになる場合も出てきます。そこで、各点から、直線までの距離の2乗(絶対値で必ず正の値になる)が最小になるよう線を引くようにします。2乗は、その距離を一辺とする正方形の面積と考えられるので、点A、点B、点Cを頂点とし、直線(回帰線)までの距離を一辺とする正方形の面積の合計値が最小になるような直線を引くと、それが「単回帰直線」になる、という仕掛けです。

管理会計の世界で、「CVP分析」というのがありますが、ここで「変動費」と「固定費」を分けるのに統計的手法を使う場合、同じ原理を使用します。それが「最小二乗法」です。なんと、あのCVP線は、単回帰線だったのですね!

最後に、筆者の老婆心からひとこと。

統計学はあくまでツールであってビジネス目的が上位と、何度も言うのは、「TOPIX」と「円ドルレート」の単回帰分析の際に、「TOPIX」を「目的変数(Y)」に採用したのは、統計学がそうしたのではなくて、「為替変動で株価指数の動きを予測したい」というビジネス目的によるものだということをしっかり理解しておいていただきたいからです。為替相場で仕事している人からすれば、「TOPIX」の変動そのもの、またはそれにより、日本に流入してくる米ドル(外貨)の方が、自分たちが観察したい円相場の「説明変数(X)」となりましょう。

ここまで、「成長性分析(8) 単回帰分析」を説明しました。

財務分析(入門編)_成長性分析(8)単回帰分析

(Visited 1,031 times, 5 visits today)
Pocket

成長性分析(8)単回帰分析http://keieikanrikaikei.com/wp-content/uploads/2015/03/9313ed6460f7d58b8e62d9b27fdfc19d-e1428166718340.jpghttp://keieikanrikaikei.com/wp-content/uploads/2015/03/9313ed6460f7d58b8e62d9b27fdfc19d-150x150.jpg小林 友昭財務分析(入門編)財務分析,成長性分析,相関分析,単回帰分析,最小二乗法■ 「相関分析」のお作法をおさらい 「前回」は、「相関係数」なるものを使って、2つの数値の関係度を評価することで、分析対象値の時系列での推移の理由を探る手法を説明しました。 ⇒「成長性分析(7) 相関分析」 今回は、「相関分析」から出発し、将来予想につなげる「単回帰分析」という手法を説明します。「成長性分析」は過去の業績を点検し、成長戦略のポイントを確認し、将来の成長速度を予想することで、各種経営計画のベースとなることを期待されている、と筆者は考えるからです。 ここで、「相関分析」のお作法をおさらいしておきます。将来予想のための「単回帰分析」に思考をつなげるために、きちんと確認しておきたいので。 「相関分析」を実施する時のお作法 ① 連動性(相関)を分析したい2つのデータを選択する ② 2つのデータ間の連動性(相関)の仮説を立てる ③ 2つのデータ間の相関係数を求める ④ 「散布図」で視認する (初歩の時は、目視で外れ値を探し出し、外れ値を除外してもう一度相関係数を求め直す) ⑤ 上記②の仮説を検証する (ハズれた時はハズれた理由、当たった時は当たった理由を明確にします) 「単回帰分析」による将来予測の前に、なぜ、「相関分析」のお作法を確認したのか? それは「相関分析」における仮説検証において、2つのデータの連動性が明らかになって、かつ連動性の要因(意味)まで分かった時、初めてその関係性が将来予測に使えるかどうかが判断できるからです。   ■ しつこいのですが「相関関係」と「因果関係」は違います 読者の皆さんは、Amazonや楽天などのショッピングサイトで、お買い物をしたことはないでしょうか? その後、何気にAmazonや楽天などのサイトを再訪した際、似たような商品をお勧めする広告を目にするかと思います。あなたのサイト訪問履歴を「Cookie」から読み取り、ビッグデータを用いて、同じ購買層が購入した商品をあなたに「レコメンデーション」しているのです。この「同じ購買層」とか、「似たような商品」という消費者や商品を似た者同士でグルーピングする技術に「相関分析」が使われています。 「商品Aを閲覧・購入する人は、商品Bを閲覧・購入する確率が高い(正の相関が高い)」とプログラムで判断します。 この時、「あなた」や「あなたが買った商品」という情報は、数多くある統計上のサンプルデータに過ぎません。どのデータがメインで、どのデータがサブということはありません。しかし、「単回帰分析」は、「正の相関」や「負の相関」が高いもの同士、2つのデータを扱う所までは同じですが、2つのデータ間には明確な主客関係が存在するのです。 あなたがどうにか操作して結果を出したいデータを「目的変数(Y)」(売上高など)、あなたが結果を出したいデータの増減に影響を及ぼすデータを「説明変数(X)」(顧客訪問回数、広告宣伝費など)として位置づけます。 この時、「目的変数」と「説明変数」の間には、たまたまそうなったという「相関関係」を超えて、「説明変数」がどれだけ動いたから、その帰結として「目的変数」がこれだけ動いたという「因果関係」が見つかるはずです。 (原因)顧客訪問数を増やした。広告宣伝費を増やした。平均気温が上がった。        ↓ (結果)売上高が増えた。 ここで確認。上記「原因」のところに、「平均気温の上昇」を例示していますが、神でない限り、「地表上の気温」を人間がいともたやすく操作できるとは思えません。しかし、平均気温の上昇が見込める場合、例えばアイスクリームを増産する、販売員を増やす、などといった手を打ってアイスクリームの売上高を延ばすことができます(販売機会のロスを最小化)。また、「天候デリバティブ」という金融商品を買うことで、売上増減のリスクを最小化することもできます。 「単回帰分析」は、「目的変数(Y)」(最終的に予測したいこと)を、「説明変数(X)」(Yの変動の原因となること)の変化量に基づき、「リニア、直線、一次関数」で表現し、Xの値が分かれば、Yの値が予想できるという計算式を求めることです。 私見ですが、統計学のツールに振り回されるのではなく、ビジネスのストーリーや戦略・施策をしっかり持って、こうした統計的手法を使用するという姿勢が重要であるということです。よって、学問的に多少解釈が間違っていたとしても、ビジネスとして有用だと思えるなら、積極的に取り入れていくべきだと考えます。 ということで、次章では前回集めた統計データを使って、いよいよ「単回帰分析」を始めます。   ■ 本当はトヨタの生産台数で単回帰分析やりたかったのですが。。。 前回の説明で、トヨタの月次生産台数の変化と、TOPIX以下、6つの統計量で相関分析を行いました。「生産台数」を「目的変数(Y)」にするつもりで、前回提示した散布図は、全て「生産台数」がY軸にプロットされているはずです。しかし、筆者が用意した相関関係では、最高で「鉱工業指数」の相関係数が「0.548」とそれほどの相関が無かったので、これで単回帰分析するのは面白くない。 そこで、せっかく集めたデータ同士で高い相関関係が認められるものは無いか探したところ、ありました。「TOPIX」と「円ドルレート」です。相関係数も「0.628」。 しかし、一昔前まで円高基調により、国内製造業が空洞化(海外に生産拠点を移転)し、円安が必ずしも企業業績にプラスに働らいていない、という論調もあります。そこで、さらにデータを絞って、円安基調になった2012年11月~2015年3月のデータで、もう一度「TOPIX」と「円ドルレート」の相関係数を求めてみます。なんと「0.957」にまで高まりました。 こうなったら、「TOPIX」と「円ドルレート」で「単回帰分析」させてください。しかし、問題となるのは、どっちを「目的変数」とするか? これは統計学の学問上の定義より、ビジネス目的に従って決まるものと考えますので、いったん株式売買を生業としている投資家の立場に立って、「TOPIX」を「目的変数(Y)」、「円ドルレート」を「説明変数(X)」とします。円ドルレートがどれだけ変位すれば、株価がいくらいくら動くのか、予想がつけば、投資家は、為替ヘッジをしたり、オプションや先物といった金融商品を事前に購入する材料にしたりできます。 ではどうやって「単回帰線」求めるか? 一番簡単な方法は、Excelで「TOPIX」をY軸に、「円ドルレート」をX軸に置いた「散布図」をグラフ機能で作成します。グラフに表示される点を右クリックして、「近似曲線の追加」というメニューを選んで、「線形近似」のラジオボタンを選択、開いた設定画面で「グラフに数式を表示する」にチェックマークを入れると、下記のようなグラフが得られます。 Y(TOPIX)= 17.56X(円ドルレート)- 587.19 Xに想定するドルレートを代入すれば、少なくとも2012年11月以降の直近2年5か月間の値動きをベースとした将来株価指数の予測ができるようになります。 グラフをいちいち作図するのは面倒だという方には、ダイレクトにExcel関数で、上記の一次関数の「傾き」と「切片」を求めることができます。 「傾き」(17.56) = slope(Yの数列, Xの数列) 「切片」(-587.19) = intercept(Yの数列, Xの数列) ここで数列というのは、Excelのスプレッドシートに打ち込んだ数字の並びを指し、縦でも横でも、セル範囲指定でどうにでもなります。   ■ 「単回帰直線」の原理と使用にあたっての留意点 なにか、Excelを使って、一次式が出てきたが、いまいち信憑性が感じられない、かといって統計学の教科書を読むのは面倒だ、というあなたには、なぜこの直線が求められるのか、直観的に理解できるように図解しておきます。 点A、点B、点Cの3つだけしかデータが無いと仮定した場合、それぞれの点からの距離が最小になる直線を引こうとします。この直線が3つの点の分布を一番よく表す直線になるはず。それぞれの点から一本の線を引く場合、線の上下に点が出てしまうで、座標同士の距離を計算すると、マイナスになる場合も出てきます。そこで、各点から、直線までの距離の2乗(絶対値で必ず正の値になる)が最小になるよう線を引くようにします。2乗は、その距離を一辺とする正方形の面積と考えられるので、点A、点B、点Cを頂点とし、直線(回帰線)までの距離を一辺とする正方形の面積の合計値が最小になるような直線を引くと、それが「単回帰直線」になる、という仕掛けです。 管理会計の世界で、「CVP分析」というのがありますが、ここで「変動費」と「固定費」を分けるのに統計的手法を使う場合、同じ原理を使用します。それが「最小二乗法」です。なんと、あのCVP線は、単回帰線だったのですね! 最後に、筆者の老婆心からひとこと。 統計学はあくまでツールであってビジネス目的が上位と、何度も言うのは、「TOPIX」と「円ドルレート」の単回帰分析の際に、「TOPIX」を「目的変数(Y)」に採用したのは、統計学がそうしたのではなくて、「為替変動で株価指数の動きを予測したい」というビジネス目的によるものだということをしっかり理解しておいていただきたいからです。為替相場で仕事している人からすれば、「TOPIX」の変動そのもの、またはそれにより、日本に流入してくる米ドル(外貨)の方が、自分たちが観察したい円相場の「説明変数(X)」となりましょう。 ここまで、「成長性分析(8) 単回帰分析」を説明しました。現役の経営コンサルタントが管理会計をテーマに情報発信します