LIGデザイナー採用
LIGデザイナー採用
2016.10.26
第9回
数字を見極める統計入門

GoogleアナリティクスのデータをR言語で解析しよう【実践編】

Jack

こんにちは。

時間を見つけてRの勉強をしているディレクターのJackです。

今回は、Googleアナリティクスのデータを使って、R言語で遊んでみる内容です。

今まで学習した統計の基礎知識を実際にR言語を使って実践してみましょう。

前回のともぞう氏の記事では、Googleアナリティクスのデータをスプレッドシートのプラグインを活用し、データを取得するところまで説明しました。

今回は、実際に取得したデータを使って簡単な集計をしてみます。

利用するデータを準備する

利用するデータは、LIGブログのデータです。

サンプルデータとしてLIGブログのデータをCSVとしてアップしていますので、下記よりダウンロードしてご利用くださいませ。

対象は過去にディレクター陣が連載していたいいWebつくろう〜クライアントと制作会社〜の9月のデータです。

サンプルCSVをダウンロードする際には以下の利用規約をご確認いただき、同意の上でご利用ください。

利用規約
  • このサンプルはあくまで実際のデータを利用しての参考にすることを目的として配布するものです。
  • デザイン及びアイキャッチ、バナー、ロゴに使用されている素材の著作権はLIGに帰属し、一切の二次使用を禁止します。
  • CSVファイルの再配布・販売を禁止します。
  • CSVファイルの著作者を偽って公開する行為を禁止します。
  • 個人の使用範囲内においてのみ、オリジナルファイルの改変を行うことが可能です。
  • 改変されたCSVファイルを公開する行為を禁止します。
  • 改変されたCSVファイルは知人や社内など、限定された範囲内で共有することが可能です。ただし制限を設けていても、不特定の人間がアクセスできる場所にCSVファイルを置くことは禁止します。


規約に同意してCSVをダウンロードする

取得したデータを読み込む

取得したデータを読む込みには、read.csvというメソッドを利用します。

> ga_csv <- read.csv("./sample.csv")

Viewコマンドを利用し、データを確認してみましょう。

> View(ga_csv)

view

読み込んだデータを表形式で確認できるようになりました。

PVの総和を求める

さて、続いてPVの総和を求めてみましょう。

はじめに、PVの値を出力してみましょう。

> ga_csv$ga.pageviews
 [1]  113   85 2133   92  128  333  234  128  156   43   85  135   99  120  170   92  113   64   64  156

PVの総和を求めるには、下記コマンドを実行してみてください。

> sum(ga_csv$ga.pageviews)
[1] 4543

コマンド1つで、PVの総和を求める事ができました。便利ですね。

PVの最大値と最小値を求める

続いて、最大値を最小値を求めてみましょう。

最大値を求めてみる

最大値を算出するには、maxコマンドを利用します。

> max(ga_csv$ga.pageviews)
[1] 2133

最小値を求めてみる

最小値を算出するには、minコマンドを利用します。

> min(ga_csv$ga.pageviews)
[1] 43

PVの平均値を求める

次に、平均値を算出してみます。meanコマンドを利用します。

> mean(ga_csv$ga.pageviews)
[1] 227.15

これも、コマンド1つで簡単に求めることができましたね。

無相関検定を実施してみる

最後に、無相関検定を実施してみましょう。

実施するのは、PV数(ga.pageviews)と直帰率(ga.bounceRate)に相関があるのかどうか確認していきます。

相関係数を求める

相関係数を求めるには、Rコンソールにてcorというコマンドを実行してください。

> cor(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")
[1] 0.03083395

相関係数は、0.03083395という値になりました。

無相関検定をおこなう

無相関検定を実施するには、下記コマンドを入力してください。

> cor.test(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")

	Pearson's product-moment correlation

data:  ga_csv$ga.pageviews and ga_csv$ga.bounceRate
t = 0.13088, df = 18, p-value = 0.8973
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.4173819  0.4669829
sample estimates:
       cor 
0.03083395

今回の無相関検定の結果、

  • 相関係数は0.03083395
  • t値 = 0.13088、df(自由度) = 18, p-value(p値) = 0.8973

という結果が得られました。

p値が有意水準0.05(5%)より大きいので、2つの変数「PV数」と「直帰率」の間には有意な相関があるとはいえないという結論となります。

0.03083395という相関係数が起こる確率は、5%よりも大きいことが分かり、母集団の相関係数が0(ゼロ)であることを否定できないため、帰無仮説を採択することとなり、意味のある相関係数であるとはいえないという結論に至りました。

おわりに

いかがでしたか?

Google Analyticsから取得したデータもRで簡単に集計することができましたね。

今回は、サンプル数が少ないデータで検証を行ったため、次回はもっとサンプル数が多いデータで検証をしてみたいと思います。