こんにちは。週5でケバブを食べるWebディレクター、RISHです。
夏の暑さも少しずつ落ち着いてきましたが、みなさんいかがお過ごしでしょうか。
今日はWeb担当者なら気になる人も多い、ABテストの話をしようと思います。限りある予算で最大限の効果を発揮するために知っておきたい知識の1つですよね。
※この記事ではABテストの設計と効果測定について言及します。ABテストを行うツールなどの説明は割愛させていただきます。
ABテストとは
そもそもABテストとはどんなテストなのか。
一言で表すならば、「どのパターンが最も効果を上げているのかを把握するためのテスト」です。
前アメリカ大統領のバラク・オバマ氏も、大統領選挙の際にABテストを使っていたそうです。ABテストによって、24パターンのクリエイティブの中から、家族と一緒に写っている画像がもっともメルマガの購読数を上げることを発見し、当初の見込みの1.4倍もののメルマガ読者獲得に成功したそうです。
アメリカのTOPも好んで使うぐらい、有力なWebマーケティング施策だということですね。
ABテストに期待できること
「複数パターンのもののなかからもっとも効果を上げたものはどれなのか」を検証することができます。たとえば、次のような活用方法ができます。
- 代表的な活用例1(広告)
- ・ 複数ある広告の中から、どの広告文、訴求内容のものが最も効果を上げたのかの検証
・複数のクリエイティブパターンの中から、どのパターンのものがもっとも効果を上げたのかの検証
- 代表的な活用例2(LP)
- ・クリエイティブパターンAのLPとBでは、どちらがCVRが良いのかを検証
・導線の位置がページの上部の場合と下部の場合ではどちらがお問い合わせにつながっているのかを検証
- 代表的な活用例3(バナー)
- ・ターゲット層に近しい人物画像が入ったバナーと、そうでない場合はどちらがCTが高いのかを検証
ABテストの設計方法
ABテストの概要が理解できたら、いよいよABテストの設計をしていきます。ざっくりまとめると次のような段取りで進めていきます。
[目的の定義]→[テスト対象のユーザリストを用意]→[コントロールグループの設定]
では順番に説明していきますね。
目的の定義
何のためにABテストをするのかを明確にしておくことが最も大切です。これは言い換えると、具体的な仮設を立てることが重要ということです。
例えばこんな形で仮説を立てます。
①30代で、都内の企業で働く女性がターゲットなのであれば、その人物像をバナーで見せたほうがCTが上がるのではないか。
②ビジネスマン向け中国語教室の無料体験レッスンへの申込みがCVのLPだが、申込み導線は追従式のボタンにした方が、そうでないものよりCVRが上がるのではないか。
これくらいの粒度で具体性を持った目的があれば、その後のテスト設計の精度も高まっていきます。
テスト対象のユーザリストを用意
ABテストの目的が定義できたら、次は誰に対してテストを行うのかを決めていきます。ここがABテストの設計でもっとも難しい部分です。
まず大前提として、「何人くらいの人を対象にテストをするべきか」というところをクリアにする必要があります。それをサンプル数と呼びますが、それには下記の式で表される計算をする必要があります。
上記が公式となりますので、あとはよろしくお願いいたします。
冗談です。
一見人類が理解するのは不可能なレベルの数式に見えますが、安心してください。順番に説明していきます。
N:人口サイズ | これは本来対象とするターゲット層は何人いるのかを指します。 |
---|---|
e: 誤差範囲 | これはサンプルがどれほどの誤差範囲の中にあるかを表します。 一般的にこの誤差が小さければ小さいほどテストの結果の精度は高まります。 |
z:信頼度 | 信頼度は、そのサンプル数がどれほど信頼できるかを表していて、一般的に信頼度は90%、95%、99%で設定することが多いです。 例えば、信頼度95%の場合だと、同じアンケートを同じ条件で100回やったとしても、そのうちの95回は誤差の範囲内に収まるということになります。 |
p: パーセント値 | これは主にアンケートなどを行う際に設定する項目なのですが、ABテストの場合はp=0.5を設定しておけば問題ありません。 |
難しい単語が並んでいますが、すべてを完璧に理解する必要はありません。また、この計算を無料でやってくれるツールやサイトもWeb上にあります。「ABテスト サンプル数 計算」などと検索すればたくさん出てきますので自分にあったものを使ってみてください。
コントロールグループの設定
ここまでで、テストの目的と誰に対してテストをするのかが設計できました。
多くの人はここでABテストを初めてしまうのですが、私はもう1段階「コントロールグループ」という層を作りテストに工夫を加えます。
なぜこれをやるかというと、一般的にABテストのAとBの比較はあまり比較になっていないことが多いからです。
たとえば、既存のデザインではいまいち効果が上がっていないので、パターンAとBどちらがCVRが良いのかを検証するとします。その場合、テスト対象全ユーザーにパターンAとBをランダムで表示されるように考慮して検証をすることで満足している人が散見されます。
しかしそれだと、デザイン以外でCVに貢献する要素のことが全く配慮されていないですよね。例えば、デザイン以外にもABテスト対象期間にFacebook広告を出していた場合、通常よりも多くの流入があるため、CVRが上がったのは、デザインが改善されたためなのか、Facebook広告の効果なのかが混同し効果がよくわからなくなってしまいます。
そこでおすすめするのが、コントロールグループの設定です。
簡単に言うと「ABテストの期間中あえて何もしない層」を設定し、ABテストで検証している項目以外で、CVに貢献している要素を含めて検証できるようにします。
このコントロールグループはテスト対象ユーザーの20%〜30%程度のサンプル数があれば十分だと一般的には言われています。
結果が出たら
結果が出たら、必ずコントロールグループと比較しよう
ABテスト期間が終了したら、必ずパターンAとBの実績をコントロールグループの実績と比較して効果を検証します。
たとえば下記のように、コントロールグループのCVRが0.87%で、パターンAは0.91%、パターンBは1.0%だった場合、パターンAは0.91%-0.87%=+0.03ptのCVR改善、パターンBは1.0%-0.87%=+0.13ptの改善のため、パターンBはパターンAに比べて+0.9pt効果を上げるデザインであったと結論付けることができます。
CVR | (それぞれのCVR)-(1) | (効果B)-(効果A) | |
---|---|---|---|
コントロールグループ(1) | 0.87% | ±0.0pt | – |
パターンA | 0.91% | +0.04pt | – |
パターンB | 1.0% | +0.13pt | +0.09pt |
結果の優位性を意識しよう
パターンAとBの実績に差が出始めたら「カイ2乗検定」をし、ABテストの終了時期を判断します。簡単にいうと、出た結果は誤差なのか、本当に実績の差としてとらえて良いのかを判断する作業です。
やり方はとても簡単で、Excelかスプレッドシートで表を作り、その後関数を使えば出てきます。所要時間は3分程度です。
まず下記のような実績をまとめた表を用意します。
CVなし | CVあり | 合計 | |
---|---|---|---|
A | 155 | 8 | 163 |
B | 166 | 2 | 168 |
合計 | 321 | 10 | 331 |
次に「期待値」という数字を算出します。期待値は、「=縦列の合計×横列の合計÷全合計」で求められます。
ここまで準備が出来たら、以下の関数を入れれば完了です。
CVなし(期待値) | CVあり(期待値) | |
---|---|---|
A | 158 | 5 |
B | 163 | 5 |
- 関数
- =CHITEST(実測値のセル範囲,期待値のセル範囲)
すると、4.82%と出てきましたね。
これがABテストの結果の有意差を表すもので、結果が単なる偶然なのか、必然なのかを判断するものです。
一般的にこの数値が5%をを下回っていれば、信頼して良い結果になったと統計的には言われいるので、このABテストではパターンAがもっとも効果が上がったと結論付けることができます。
まとめ
お疲れ様です。この記事を読むと難しそうに見えるのですが、実際に手を動かしてみると案外すんなりと進んでしまうので、是非一度お試しください。
ではまた!