
GoogleアナリティクスのデータをR言語で解析しよう【下準備編】
こんにちは。
時間を見つけてRの勉強をしているディレクターのJackです。
今回は、Googleアナリティクスのデータを使って、R言語で遊んでみる内容です。
今まで学習した統計の基礎知識を実際にR言語を使って実践してみましょう。
前回のともぞう氏の記事では、Googleアナリティクスのデータをスプレッドシートのプラグインを活用し、データを取得するところまで説明しました。
GoogleアナリティクスのデータをR言語で解析しよう【下準備編】
今回は、実際に取得したデータを使って簡単な集計をしてみます。
利用するデータは、LIGブログのデータです。
サンプルデータとしてLIGブログのデータをCSVとしてアップしていますので、下記よりダウンロードしてご利用くださいませ。
対象は過去にディレクター陣が連載していたいいWebつくろう〜クライアントと制作会社〜の9月のデータです。
サンプルCSVをダウンロードする際には以下の利用規約をご確認いただき、同意の上でご利用ください。
取得したデータを読む込みには、read.csvというメソッドを利用します。
> ga_csv <- read.csv("./sample.csv")
Viewコマンドを利用し、データを確認してみましょう。
> View(ga_csv)
読み込んだデータを表形式で確認できるようになりました。
さて、続いてPVの総和を求めてみましょう。
はじめに、PVの値を出力してみましょう。
> ga_csv$ga.pageviews
[1] 113 85 2133 92 128 333 234 128 156 43 85 135 99 120 170 92 113 64 64 156
PVの総和を求めるには、下記コマンドを実行してみてください。
> sum(ga_csv$ga.pageviews)
[1] 4543
コマンド1つで、PVの総和を求める事ができました。便利ですね。
続いて、最大値を最小値を求めてみましょう。
最大値を算出するには、maxコマンドを利用します。
> max(ga_csv$ga.pageviews)
[1] 2133
最小値を算出するには、minコマンドを利用します。
> min(ga_csv$ga.pageviews)
[1] 43
次に、平均値を算出してみます。meanコマンドを利用します。
> mean(ga_csv$ga.pageviews)
[1] 227.15
これも、コマンド1つで簡単に求めることができましたね。
最後に、無相関検定を実施してみましょう。
実施するのは、PV数(ga.pageviews)と直帰率(ga.bounceRate)に相関があるのかどうか確認していきます。
相関係数を求めるには、Rコンソールにてcorというコマンドを実行してください。
> cor(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")
[1] 0.03083395
相関係数は、0.03083395という値になりました。
無相関検定を実施するには、下記コマンドを入力してください。
> cor.test(ga_csv$ga.pageviews, ga_csv$ga.bounceRate, method="pearson")
Pearson's product-moment correlation
data: ga_csv$ga.pageviews and ga_csv$ga.bounceRate
t = 0.13088, df = 18, p-value = 0.8973
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4173819 0.4669829
sample estimates:
cor
0.03083395
今回の無相関検定の結果、
という結果が得られました。
p値が有意水準0.05(5%)より大きいので、2つの変数「PV数」と「直帰率」の間には有意な相関があるとはいえないという結論となります。
0.03083395という相関係数が起こる確率は、5%よりも大きいことが分かり、母集団の相関係数が0(ゼロ)であることを否定できないため、帰無仮説を採択することとなり、意味のある相関係数であるとはいえないという結論に至りました。
いかがでしたか?
Google Analyticsから取得したデータもRで簡単に集計することができましたね。
今回は、サンプル数が少ないデータで検証を行ったため、次回はもっとサンプル数が多いデータで検証をしてみたいと思います。