Web無料相談会2018冬
Web無料相談会2018冬
2016.07.08
第1回
数字を見極める統計入門

数字からサイトの特徴をつかむための統計学〜はじめの一歩〜

ともぞう

こんにちは。ディレクターのともぞうです!
今回から「数字を見極める統計入門」という新連載をはじめます。

基本の基本からはじめて少しずつ実践に落としこめたらと思っています。

そもそも統計とは

集めたデータ(数字)を整理することです。
整理するというのは、データから特徴を見出すことです。

例えば、小さいところでいうと平均も統計の手法のひとつです。
平均を出すことで、その特徴をつかめたりします。

ディレクターが統計学を学ぶ理由

見るべき数字を把握するためだと思っています。
Webの世界は数字との戦いです。
PVやページ/セッション、クリック数などなど…
Googleアナリティクスで見られる数字だけでも数え切れないほどあります。

データからサイトの特徴をつかみ、お客さまのサービスを成長させたり、リニューアルのご相談をいただいたときも、数値から改善案を見出したりする力が求められていると思います。

母集団と標本

さて早速、統計の基本をやっていきましょう!
データをとるにしても、どんな対象からとるかで結果は変わっていきます。

対象は大きく「母集団」と「標本」に分けることができます。

「母集団」と「標本」とはなにか、それぞれ説明していきます。

母集団

母集団とは、データをとる際に対象となるものすべてです。
例えば、日本の20代の男性へのアンケートとなれば、日本中の20代男性が対象となります。

標本

母集団に対して、完全にアンケートを実施することは難しいというよりも、現実的ではありません。
そこで標本というものがあります。
標本とは母集団の中から絞り込んだ対象のことを言います。

イメージ

母集団

実際に扱うデータは基本的に、標本から得られたデータになります。

代表値

代表値というのはすべてのデータの中から代表的な数値のことを指します。
例えば平均値があります。 これも立派な統計手法です。

では、平均値と中央値を紹介していきます。

平均値

割りと普段使う場面が多い平均のことです。
その平均には種類があるのをご存じですか? 今回は、主に代表的な種類をご紹介します。

相加平均

普段ぼくたちが利用しているのは相加平均というものです。
すべてのデータを足して、データ数で割るものですね。

相乗平均

すべてのデータを乗算して、データ数の累乗根を求めたものです。
主に成長率の平均を求める際に利用されます。

他にも調和平均二乗平均などがあります。
参考

中央値

データを大きさ順に並べた際に、中央にくる値を中央値と呼びます。
例えば以下のデータがあったとして…

40 84 78 42 72

昇順に並べ替えてみてると…

40 42 72 78 84

中央値を求めることができます。
この場合、中央値は72が該当します。
ちなみにデータが偶数個の場合は中央にくるデータ2つを足して2で割ることで求められます。

どちらを使うべき?

まずは平均と中央値の2つを出して、この2つが大きく乖離していなければ平均を見る、乖離していれば中央値を見るとよいと思います。

よくある比較が年収の話です。
平均年収とひと口にいっても300万の人もいれば、5,000万とかもらっている人がいたりします。これはデータに大きなバラつきがあり、平均と中央値は大きく乖離すると思います。であれば、中央値を見たほうが実情を把握することができるかもしれません。

標準偏差

データにバラつきがある場合というのが出てきました。そのバラつきも数値化しようというのが標準偏差です。

この標準偏差は平均からどのくらいズレているかを知ることができます。

標準偏差の特徴

標準偏差には、最小値は0となり…バラつきが大きければ、標準偏差の値も大きくなるという特徴があります。
最長値が0になるということはバラつきがないことを意味します。

公式
標準偏差の公式
うーんなるほど…というような公式がでてきました。

やってみる

中央値を求めたときのデータを利用して標準偏差を求めてみましょう。

40 42 72 78 84

もし興味がある方は地道な作業になりますが、データを公式に当てて計算してみてください。
とりあえずやってみたい! という方はExcelかスプレッドシートで

=STDEVP()

という関数を使うと一発で標準偏差を求めることが可能です。

答え:20.71714266(ドラッグすると答えが見えます。)
ちなみにぼくは関数を使いました!

まとめ

簡単にですが統計の世界に触れてみました。
最後に公式がでてきてウッ! となった方もいるのではと思います。
ちなみにぼくはなりました。
ただ、実際にはExcelの関数や電卓で一発で出せたりするので、そういったデータの見方があるというのを知るだけで違う気がします。
中央値というものを知ってから平均だけを見てはいけないなと思いました。
例えば、PVなんかは1つの記事がバズれば大きく平均を上げてしまいます。
それを一緒くたにしてしまうと本質に気づきにくくなってしまうのかなと思います。

この連載を通じて、色んな方向からデータを見られるようになれれば幸いです!