今回はTableauでヒストグラムを作成する方法を紹介する。
Tableauでは表示形式を活用すれば、数クリックでヒストグラムを簡単に作成できる。
今回は応用力を高めるために、表示形式を使わずに作成する方法を併せて解説したいと思う。
ヒストグラムとは?
そもそもヒストグラムとはデータの分布やバラツキを可視化するのに役立つグラフだ。
見た目は棒グラフによく似ている。
売上や数量などの連続する数値データを一定区間(例えば、1万円ごと)に区切り、その各区間にどれくらいのデータ数があるのかをぱっと見で理解できるのがヒストグラムの便利な点だ。
例えば、下図はある店舗の売上データのヒストグラムだ。
上図を見れば、0円~10,000円の範囲内にデータが集中しているのがすぐにわかる。
このように1つのデータセット(売上や入会データなどのデータのまとまりのこと)の中で
- 「データはどのあたりに集中しているのか?」
- 「どれくらいバラついているのか?」
を把握するのに、ヒストグラムは非常に便利だ。
Tableauによるヒストグラム作成ステップ
では、Tableauで実際にヒストグラムを作成していく。
作成方法は下記の2つだ。
- 表示形式を活用する方法
- 表示形式を使わない方法
まず表示形式を使う方法から確認していこう。
今回はサンプルスーパーストアにおける利益データのヒストグラムを作成する。
表示形式を活用してヒストグラムを作成する方法
表示形式を活用してヒストグラムを作成するのはめちゃくちゃ簡単だ。
Step1:ヒストグラムで表示したい利益フィールドをクリック
まずヒストグラムで表示したいメジャーを選択する。
今回は利益のヒストグラムを作りたいので、データペインの利益フィールドをクリックする。
ちなみに、ヒストグラムを作成することが出来るのは、連続する数値データ(売上、利益、数量、割引率など)のみだ。
だから連続する数値データではないディメンション(カテゴリ、地域など)を選択してヒストグラムを作成することはできない。
【Tableau】ディメンションとメジャーの違いとは?
Step2:表示形式からヒストグラムをクリック
次に表示形式からヒストグラムをクリックする。
表示形式のヒストグラムをクリックすると下記のように利益のヒストグラムが一瞬で作成される。
このように表示形式を活用すれば、こんなに簡単にヒストグラムを作成することができる。
表示形式を活用しないでヒストグラムを作成する方法
次に表示形式を活用せずにヒストグラムを作成する方法をご紹介する。
Step1:ヒストグラムを作成したい利益フィールドからビンを作成
表示形式を活用しない場合、まずヒストグラムを作成したいメジャー(今回は利益)を右クリックしてビンの作成をする必要がある。
と疑問に思う人も多いと思う。
私も最初意味が分からなかった。
ビンは「~ごとに区切りますよ。」という意味だ。
今はこれぐらいの理解にして、実際にヒストグラムを作成しながら理解していってほしい。
Step2:ビンのサイズを調整して、利益(ビン)のディメンションを作成する
次にビンのサイズを調整する。
上図のように表示されたダイアログから「作成」→ビンをクリックすると下記のようなビンの編集ダイアログが表示される。
それぞれの意味は下図の通りだ。
ビンのサイズというのは
「~ごとに区切ってその区切りごとのデータ数を表示しますよ」
という時の「~ごと」のことを指している。
初期値はTableau側で自動で計算された値が表示されるが、自分が区切りたい値に変更するのがおすすめだ。
今回は下記のように10,000円にビンのサイズを変更した。
ビンの編集画面でOKを押すと下図のように利益(ビン)というディメンションが作成される。
Step3:作成された利益(ビン)ディメンションを列シェルフにドロップ
次に作成された利益(ビン)のディメンションを列シェルフにドロップする。
Step4:利益フィールドを右クリックしながら行シェルフにドロップ→「カウント」を選択
次に各ビン(区切りの範囲)ごとにデータの数がどれくらいあるかを表示していく。
そのために利益のフィールドを下図のように右クリックしながら行シェルフにドロップする。
これで各ビンごと(例えば、0円~10,000円、10,001円~20,000円...の範囲)にどれくらいのデータがあるかを可視化することが出来た。
ただ前述の表示形式を活用する作成方法とは完成例が異なっていることにお気づきだろうか?
その原因は「利益(ビン)」のフィールドが連続か不連続かの違いにある。
Step5:列シェルフの利益(ビン)のフィールドを不連続→連続に変換する
最後に列シェルフの利益(ビン)のフィールドを右クリックし、不連続→連続に変換する。
これで表示形式を活用した作成方法と同じ完成例になった。
各ビン同士がくっついたことがお分かりいただけると思う。
なぜ不連続から連続にするかというとヒストグラムは連続する数値を一定区間ごとに区切って、その範囲にあるデータ数を可視化するグラフだからだ。
基本的には数値が連続している必要がある。
ただ不連続のままでもそれをヒストグラムとして表現している場合も多々ある。
そのため、「厳密には連続にしたほうがいい。」とだけ今回はお伝えしておきたい。
ディメンションの連続と不連続の違いについては別記事で詳細を説明したいと思う。