傾向線③:スモールマルチプル×統計値

2017/01/27 10:48 Nanae 1 Comments

Nanaeです。

傾向線シリーズの最終回です。
第一弾では、Tableauの傾向線はどれくらいインパクトがあるのか、第二弾では、傾向線を出すだけでなく見るべき指標も確認しましょう、とお伝えしました。ラストの第三弾では、第一弾と第二弾でやったことを組み合わせて、Tableauならではの見方をご紹介します。

まずは気になる2つのメジャーを発見し、そのメジャー間の関係を様々なディメンションごとで切り分けるスモールマルチプルを作ります。ここまでは第一弾の内容です。



そして各散布図のR-2乗値を把握します。R-2乗値は、R連携してもいいですが、ここでは計算式を書いてみます。


SQUARE((1 / (Size()-1))*Window_Sum(((Sum([売上]) - Window_Avg(Sum([売上])))/Window_Stdev(Sum([売上]))) *(Sum([数量]) - Window_Avg(Sum([数量])))/Window_Stdev(Sum([数量]))))

これを色に入れます。これで一気に各散布図のR-2乗値が把握できるようになります。違いをわかりやすくするためにステップドカラーにしてみました。

これでマウスオーバーしなくても一度に、分布、傾向線の向き、R-2乗値の大きさがわかりますね!


青色である通常配送の家具と家電は、R-2乗が大きいのでこの傾向線のあてはまりがよく、マウスオーバーしてp値を見ると0.0001未満ですのでたまたま出てきた線でもなさそうです。
紫色である3つの散布図も、R-2乗がある程度大きく、p値は0.0001未満ですので、青と一緒に検討してもよいかもしれません。
青と紫の5つの傾向線を比較すると、通常配送の家具は少ない数量でも売上が大きめかもしれないなどと読み取れます。

R-2乗の行列を組み合わせてもわかりやすいと思います。


以上、計3回の傾向線特集でした。
Tableauは2変数間の関係を見るとき、さまざまなディメンションで切り分けてみていくことが得意です。さらにR-2乗値やp値も同時に見てみてください。そしてそれらを組み合わせて活用する方法の1つをご紹介しました。

Nanae

1 コメント:

傾向線②:その傾向線、本当に使って大丈夫??

2017/01/20 19:06 Nanae 0 Comments

Nanaeです。こんにちは。傾向線第2弾で、今回は統計側の話題です。

行と列に連続値が入っているチャート、例えば散布図なんかを作ったら、Tableauではドラッグアンドドロップだけで傾向線を引けますよね。傾向線は一瞬で上がり下がりの傾向がわかるのでよく使われる方も多いと思います。そのとき、傾向線の傾きだけですぐに「これは正の相関だな!」とすぐに解釈してませんか!?それ、実は危険かもしれません。そこで今回は、傾向線を引いたときにTableauが出してくれる線や値から、その傾向線を使っても問題ないのか確認してみましょう。

まず、傾向線って何でしょうか。ある変数yを他の変数xによって計算するためのモデルのことです。傾向線をマウスオーバーするとy=ax+bという形で計算式が出てきますよね、傾向線はあの式を描いています。下の例では、yが売上、xが数量で、数量が1個増えると、売上は6349.79円増えるということを意味しています。



でもその傾向線から何かの情報を得る前に、その傾向線をそもそも使っていいのか確認しておく必要があります。傾向線をマウスオーバーすると、式と一緒にR-2乗とP値という値が出てきます。ここが見てほしいポイントです。結論としては、以下2点を満たしているかチェックしてください!ざっくりとした目安になります。

① R-2乗が0.5や0.6程度より大きければOK
②  p値が0に近ければOK

傾向線というのはとにかく無理やりでも出しただけですので、その傾向線ってちゃんとデータをとらえてるんだよね?その傾向線って今回たまたま出てきただけってわけじゃないよね?こんなことを、この2つの値から確認します。

① R-2乗(アールじじょう):データがどの程度モデルから説明されているか?

決定係数とか寄与率と呼ばれます。モデルとデータの関係をみたとき、このモデルはどの程度データを決定(=説明)しているのか、寄与しているか、を表しています。0~1の値を取るもので、値が大きいほどデータはモデルで説明されているよいモデルであり、そのとき各マークは傾向線の近くに集まります。逆に0に近ければ、傾向線とは関係なく散らばります。

じゃあR-2乗がいくつ以上であれば十分だと判断していいか、肝心なところがきっちりと決まっているわけではありませんが、0.5とか0.6より大きければ役に立つと言われています。

② p値(ピーち):その傾向線は偶然できたもの?信頼できるもの?

possibilityのpで、有意確率と呼ばれます。p値が低ければ、この傾向線は偶然ではなく、同じ条件の他のデータで傾向線を出しても、似たような線が得られると考えることができます。

ちなみに、値が小さいほうが良いわけは、こんな流れで考えています。p値とはこのモデルが成立しない確率です。その確率がとても低いってことは、このモデルは偶然できたものではなく意味があるだろう(意味が有る→有意)。という流れです。

ということで、p値というのは、ただの偶然出てきたわけではないことを確認していたんですね。p値は5%か1%より小さければOKです。

まずは傾向線と一緒に出てくるR-2乗とp値の2つを意識すると、より正しく傾向線を扱えるようになると思います!

---Advanced---
さらにもう一歩進めるには、各マークと回帰モデルのズレ(=残差)に偏りがないかも確認したほうがいいです。

残差のデータを得るために、Desktopのメニューから、ワークシート→エクスポート→データ(MSのアクセスファイルになります)に接続します。


ここに入っているデータは、散布図で使った、売上と数量、それから、モデルから算出された予測値と残差です。



この残差が0付近に集中して均等に散らばっていればOKです。どのマークでもモデルとのズレが均等であれば、そのズレは誤差と考えることができるので、このモデルはあてはまりがよかったんだなといえます。

均等にばらついているかみるために残差と数量の散布図と、残差が0付近に集中しているかみるためのヒストグラムを作成しました。


散布図からは、数量が大きくなればなるほど0から遠い位置でプロットされてしまっていることがわかります。よって、数量が少ないときはまだ使えるかもしれないけど、数量が多いときは信頼感に欠けることが読み取れます。理想は、数量がいくつであっても0付近に分布するような散布図です。
ヒストグラムからは0付近に多く出現しているので、OKです。

さらに、実際の売上と、モデルから算出された予測値が近いかどうかも見てみるために、実際の売上と算出された売上を散布図で表しました。y=xすなわち左下から右上に対角線で分布しているので、まぁまぁ予測できていますが、売上が大きくなるにつれて分散が大きくなっていることが読み取れます。もしも予測値が売上とが完全に一致していれば、対角線上にのみプロットされます。



傾向線シリーズ第2弾では、
前半で、
R-2乗から、傾向線はこのデータをうまく説明してるよね?
p値から、たまたま出てきた再現性のない傾向線ではないよね?
後半で、
残差から、モデルの値と実際の値との差は誤差として考えていいんだよね?
ということを確認しました。

気軽に出せる傾向線が、その分析で使うのに本当に適切なのかを判断する方法のご紹介でした!

Nanae



0 コメント:

傾向線①:Tableauの傾向線はとっても便利!

2017/01/13 19:46 Nanae 0 Comments

Nanaeです。とーってもお久しぶりです。
みんながよく使う傾向線をテーマに、3回シリーズで書いていきます。今回は第一弾です。今回は、Tableauの傾向線の良さを3点に絞ってお話しします。

とにかく簡単!
ご存知のとおり、傾向線を引くのはドラッグアンドドロップするだけです。1秒でできます。操作の簡単さもさることながら、傾向線という名称も誰でもわかるように工夫されています。他の製品だと線形回帰モデルなどと書いてあることが多いですが、そういった専門用語を知らなくても傾向を知るために引く線であるとわかりやすいように考慮されています。

一度に様々な角度から素早く傾向がみられる!
まず、たくさん変数があって、それぞれの変数間の関係性をみたいとき、一気に大きい行列散布図を作れます。散布図同士を比較することも簡単ですね。

散布図と傾向線のかたまりがこれだけ出てくると、気になる散布図をもっと詳しくみてみたくなります。たとえば、利益と数量の散布図を見ると、結構散らばってます。これを地域ごとで分けたらもっとわかりやすい傾向が出てくるかもしれない、さらに出荷の種類ごと、商品のカテゴリごと、いろんな角度で分けて掘り下げていったら何か傾向が出てくるかもしれないと興味が出てくるかと思います。
でもその条件を一つ一つフィルターしながら確認するのは大変すぎます。さらにそれらの結果を並べて比較するのは困難です。。。

Tableauはこのあたり、大得意です!たとえば、1注文ごとの利益と数量の関係を、8地域×3顧客区分×3カテゴリ=72パターンでみてみるとしたとき、Tableauではほんの数秒で以下のように72パターン並べて比較できます。従来のツールと比較すると、これはものすごい時間短縮です!このように深堀が簡単だからこそ、従来わからなかったインサイトも得られます。

このように表しておけば、「四国で家具を買う小規模事業所のお客さんからのオーダーは数量に対する利益が大きい」とか、「中部地方にある大企業のお客さんは、全体的に数量が増えるほど利益が減る(!)傾向にありますが、特に家電はその傾向が強い」とかどんどん読み取れるので、次のアクションや次の分析にスピーディーにつなげていけます。

ちなみにこのように行列型で並べて一気に表現するのはスモールマルチプルと言われる可視化です。ここは従来型の分析ツールとの大きな差の1つです。

インタラクティブ!
Tableauはインタラクティブ性が高いですが、傾向線の場合でも有効です。気になった部分を選択すると、そのマークだけで計算した傾向線がすぐに出てきます。これはインスタント分析と言われるものです。


2015年の後半、事務用品だけたくさん売れるような施策を打っていたとすれば、20157月から12月の事務用品の傾向を確認したくなるでしょう。そのとき、そのマークを選択するだけでピンポイントの傾向線がすぐに出てきます。施策を打った期間は全体と比べて傾向線の上がり度が大きくなっていますね。このように傾向線を引いたら気になったところをどんどん触ってみてください。

傾向線に限らずVizに表現したら選択して変化をみてみる、マウスオーバーしてツールヒントの情報をみてみる、といったことに少しずつ慣れていってほしいと思います。

Nanae

0 コメント: