こんにちは。
時間を見つけてRの勉強をしているディレクターのJackです。
今回は、Googleアナリティクスのデータを使って、R言語で遊んでみる内容です。
今まで学習した統計の基礎知識を実際にR言語を使って実践してみましょう。
前回のともぞう氏の記事では、Googleアナリティクスのデータをスプレッドシートのプラグインを活用し、データを取得するところまで説明しました。
GoogleアナリティクスのデータをR言語で解析しよう【下準備編】
今回は、実際に取得したデータを使って簡単な集計をしてみます。
利用するデータを準備する
利用するデータは、LIGブログのデータです。
サンプルデータとしてLIGブログのデータをCSVとしてアップしていますので、下記よりダウンロードしてご利用くださいませ。
対象は過去にディレクター陣が連載していたいいWebつくろう〜クライアントと制作会社〜の9月のデータです。
サンプルCSVをダウンロードする際には以下の利用規約をご確認いただき、同意の上でご利用ください。
- 利用規約
-
- このサンプルはあくまで実際のデータを利用しての参考にすることを目的として配布するものです。
- デザイン及びアイキャッチ、バナー、ロゴに使用されている素材の著作権はLIGに帰属し、一切の二次使用を禁止します。
- CSVファイルの再配布・販売を禁止します。
- CSVファイルの著作者を偽って公開する行為を禁止します。
- 個人の使用範囲内においてのみ、オリジナルファイルの改変を行うことが可能です。
- 改変されたCSVファイルを公開する行為を禁止します。
- 改変されたCSVファイルは知人や社内など、限定された範囲内で共有することが可能です。ただし制限を設けていても、不特定の人間がアクセスできる場所にCSVファイルを置くことは禁止します。
規約に同意してCSVをダウンロードする
取得したデータを読み込む
取得したデータを読む込みには、read.csvというメソッドを利用します。
> ga_csv <- read.csv("./sample.csv")
Viewコマンドを利用し、データを確認してみましょう。
> View(ga_csv)
読み込んだデータを表形式で確認できるようになりました。
PVの総和を求める
さて、続いてPVの総和を求めてみましょう。
はじめに、PVの値を出力してみましょう。
> ga_csv$ga.pageviews
[1] 113 85 2133 92 128 333 234 128 156 43 85 135 99 120 170 92 113 64 64 156
PVの総和を求めるには、下記コマンドを実行してみてください。
> sum(ga_csv$ga.pageviews)
[1] 4543
コマンド1つで、PVの総和を求める事ができました。便利ですね。
PVの最大値と最小値を求める
続いて、最大値を最小値を求めてみましょう。
最大値を求めてみる
最大値を算出するには、maxコマンドを利用します。
> max(ga_csv$ga.pageviews)
[1] 2133
最小値を求めてみる
最小値を算出するには、minコマンドを利用します。
> min(ga_csv$ga.pageviews)
[1] 43
PVの平均値を求める
次に、平均値を算出してみます。meanコマンドを利用します。
> mean(ga_csv$ga.pageviews)
[1] 227.15
これも、コマンド1つで簡単に求めることができましたね。
無相関検定を実施してみる
最後に、無相関検定を実施してみましょう。
実施するのは、PV数(ga.pageviews)と直帰率(ga.bounceRate)に相関があるのかどうか確認していきます。
相関係数を求める
相関係数を求めるには、Rコンソールにてcorというコマンドを実行してください。
> cor(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")
[1] 0.03083395
相関係数は、0.03083395という値になりました。
無相関検定をおこなう
無相関検定を実施するには、下記コマンドを入力してください。
> cor.test(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")
Pearson's product-moment correlation
data: ga_csv$ga.pageviews and ga_csv$ga.bounceRate
t = 0.13088, df = 18, p-value = 0.8973
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4173819 0.4669829
sample estimates:
cor
0.03083395
今回の無相関検定の結果、
- 相関係数は0.03083395
- t値 = 0.13088、df(自由度) = 18, p-value(p値) = 0.8973
という結果が得られました。
p値が有意水準0.05(5%)より大きいので、2つの変数「PV数」と「直帰率」の間には有意な相関があるとはいえないという結論となります。
0.03083395という相関係数が起こる確率は、5%よりも大きいことが分かり、母集団の相関係数が0(ゼロ)であることを否定できないため、帰無仮説を採択することとなり、意味のある相関係数であるとはいえないという結論に至りました。
おわりに
いかがでしたか?
Google Analyticsから取得したデータもRで簡単に集計することができましたね。
今回は、サンプル数が少ないデータで検証を行ったため、次回はもっとサンプル数が多いデータで検証をしてみたいと思います。
LIGはWebサイト制作を支援しています。ご興味のある方は事業ぺージをぜひご覧ください。