今日からShopify で販売を開始しよう

Shopifyを無料で試して、ビジネスの開始、運営、成長の為に必要なすべてのツールとサービスを体験しましょう。

続きを読む

プロが教えるA/Bテストの基礎知識　GoogleやHubSpotなどのエキスパートによるヒントつき

2020年8月31日
この記事は5分で読めます

皆さまはA/Bテストをご存知ですか？もしかしたら、これまでに聞いたことがあるかもしれません。A/Bテスト結果に関する記事は広く読まれていますし、既にメールの件名やSNSの投稿をA/Bテストされているかもしれません。

A/Bテストについては様々なことが言われていますが、多くのマーケティング担当の方に正しく理解されているとは言えないようです。テスト結果については…残念ながら、適切に行われていないテストの不正確な結果に基づき、ビジネス上の重要な意思決定がなされてしまっているかもしれません。

ここで問題となっているのは、特にショップオーナー向けに作成されたコンテンツにおいて、A/Bテストが過度に単純化されているケースがしばしば見受けられることです。

では、解決方法とはどのようなものなのでしょうか。ここでは、EコマースのA/Bテストを始めるために必要なすべての事柄を、出来るだけ分かりやすくご説明します。

A/Bテストとは何か

A/Bテストは、スプリットテストとも呼ばれ、同じウェブページにおける２つのバージョンを比較し、どちらのパフォーマンスが優れているかを判断するプロセスのことを言います。

このプロセスによって、ビジネス上の質問に対する重要な答えを得ることができます。既存のトラフィックからの収益を増やすことができますし、データに基づいたマーケティング戦略の基盤を築くことが可能になります。

A/Bテストの仕組み

まず初めに、ビジターの50%をバージョンAとして表示し（こちらをコントロールと呼びます）、残りの50%をバージョンBとして表示します（こちらをバリアントと呼びます）。

コンバージョン率が最も高いウェブページのバージョンが勝ちとされ、優先されます。例えば、バリアント（バージョンB）のコンバージョン率が最も高いとしましょう。こちらを勝者とし、次に訪問者の100%をバージョンBにプッシュします。

これによって、バリアントは新しいコントロールとなり、新たにバリアントを設計する必要が生じます。

コンバージョン率は、成功のための完璧な尺度とは言えません。ショップ内の商品をすべて無料にすれば、コンバージョン率を即座に高めることができますよね。でもそれではビジネスになりません。

コンバージョンは、お客様が実際に購入を完了するまで追跡する必要があります。

A/B/nテストとは何か

A/Bnテストでは、コントロールに対して複数のバリアントをテストすることが可能です。上記で挙げたビジターの50%をコントロールとし、50%をバリアントとして表示する代わりに、例えばビジターの25%をコントロールとし、最初のバリアントを25%、2番目のバリアントを25%、3番目のバリアントを25%として表示することができます。

注：これは、複数のバリアントを含む多変量テストとは異なります。多変量テストを実行する場合、複数のバリアントをテストするだけでなく、複数のエレメンツもテストします。目標は、どの組み合わせが最適に機能するかを把握することです。

多変量テストを実行するには大量のトラフィックが必要となるため、ここでは考慮しなくともよいでしょう。

A/Bテストの実行時間

A/Bテストを少なくとも1回、理想的には2回のフルビジネスサイクルの間、実行します。有意性を得たからといって、テストを停止しないようにしましょう。また、事前に決められたサンプルサイズを満たしている必要もあります。すべてのテストを1週間単位で実行することを忘れないようにしましょう。

ここで、なぜ2回のフルビジネスサイクルなのでしょうか：

「購入するかを考えたい」購入者を考慮に入れることができる
異なるすべてのトラフィックソース（Facebook、ニュースレター、オーガニックサーチなど）を考慮に入れることができる。
例えば金曜日のニュースレター等の例外をを考慮に入れることができる

もしこれまでにA/Bテストツールを使用したことがあるならば、統計的有意性を示す小さな緑色のアイコンをご覧になっているかもしれません。

しかし、多くの場合ここでテスト完了ということではありません。のちに統計に関する訓練のところで詳しくお伝えしますが、統計的有意性とはテストを停止するといったサインではなく、有意性に到達したとしても、その必要があるとは言えません。

また、所定のサンプルサイズについては、見かけほど困難ではありませんので、Evan Millerのサンプルサイズ計算機などを用いて計算しましょう。

上記の計算では、現在のコンバージョン率が5%の場合、15%の効果を検出するには、バリエーションごとに13,533のサンプルが必要であるとしています。

標準的なA/Bテストの場合、合計で25,000人以上のビジターが必要となります。

より小さな効果を検出したい場合はどうなるかを見てみましょう：

ここで変更されたのは、最小検出可能効果（MDE）のみで、15%から8%に減少しました。この場合、バリエーションごとに47,127のサンプルが必要となり、従って標準的なA/Bテストの場合には、合計で100,000人のビジターが必要です。

テストを開始する前に、サンプルサイズを事前に計算する必要があります。テストは、有意性を得たとしても、あらかじめ決められたサンプルサイズに達するまで停止することができません。停止した場合、テストは有効とはならず、このことが「100のコンバージョン達成後に停止する」といったベストプラクティスに、あてもなく従うことができない理由なのです。

また、1週間の間テストを実行することも重要です。トラフィックは曜日や時刻によって変化する可能性があるため、必ず曜日を含めるようにしてください。

A/Bテストを行う理由

100年Facebook広告にドルを費やして,サイトに10人のユーザーを招いたとします。平均注文額は25ドルです。ビジターのうち8人は何も買わずに去り、他の2人はそれぞれ25ドルを費やしました。結果、50ドルのマイナスとなります。

今度は、同じようにFacebook広告に100ドルを費やし、10人を招いたとします。でも今回5人は何も買わずにサイトを去り、他の5人がそれぞれ25ドル分を購入しました。結果は、25ドルのプラスです。

もちろんこれは単純化された例ですが、コンバージョン率を上げることで、同じトラフィックからより多くの利益を生み出すことが可能になります。

A/Bテストは、その勝敗に関わらず、洞察を明らかにするのにも役立ちます。この値は非常に汎用性が高く、例えば、製品説明のコピーライティングのA/Bテストから得られた洞察は、その他の製品説明などにも役立つことでしょう。

また、これは言うまでもありませんが、ショップの改善への継続的な努力も欠かせません。

A/Bテストをするべきか

これは必ずしも必要ではなく、トラフィックの少ないサイトの場合、A/Bテストはおそらく良い最適化のための作業とはいえないでしょう。例えばユーザーテストの実施や、お客様とのコミュニケーションによって、投資利益率（ROI）が高まる可能性があります。

「一般的に信じられていることとは違って、コンバージョン率の最適化は、テストによって開始したり終了するわけではありません。」

上記のサンプルサイズ計算機の数値について考えてみましょう。ベースラインのコンバージョン率が5%の場合、8%の効果を検出するには、バリエーションごとに47,127人のビジターが必要です。それでは、商品ページをテストするとして、2～4週間で100,000人近くのビジターを呼び込むことは、果たして可能でしょうか。

ここでまず、なぜ2～4週間なのでしょう。少なくとも2つのフルビジネスサイクルの間、テストを実行するようにと前述しましたが、それには通常2～4週間かかります。必要なサンプルサイズに達するまで、それ以上の期間テストしようとしても、上手くいかないでしょう。

なぜなら、テストの実行時間が長くなるほど、外部からの脅威やサンプル汚染の影響を受けやすくなるからです。ビジターがCookieを削除し、新しいビジターとしてA/Bテストに再入力されるかもしれませんし、誰かが携帯電話からデスクトップに切り替え、別のバリエーションに含まれることになるかもしれません。

本質的に、テストを長時間実行し続けることもまた適切な選択とは言えません。

2～4週間で必要なサンプルサイズを満たせるショップに対し、テストを行う価値があります。トラフィックが増加するまで、最適化するための他の方法を適用できないショップも含まれます。

ShopifyのデータサイエンティストであるJulia Starostenkoは、次のように説明しています。

Julia Starostenko, Shopify

「実験は楽しいです！けれども、結果が正確であることを確認することが大切です。ぜひこのように自問してみてください。

十分な規模のオーディエンスはあるだろうか。十分なデータを収集しているだろうか。妥当な時間枠内で真の統計的有意性を達成するには、十分な規模のオーディエンスが必要です」

何をA/Bテストすべきか

A/Bテストについて、何を対象としたらよいかを具体的に説明することは、残念ながらできません。もし「すぐにテストすべき99の項目のリスト」といったものを提供できるならとても楽ですし、多くのマーケティング担当者たちも喜んで実行することでしょう。

けれども、独自のデータに基づいたテストのみ、実行する価値があります。みなさんのデータやカスタマーへアクセスすることができませんので、何をテストすべきかについて、ここでは有意義なアイデアをお伝えすることが叶いません。

独自のデータに基づいたテストのみ、実行する価値があります。

その代わりに、定性的及び定量的な分析を通じて、以下の質問に答えてみましょう。

テクニカル分析：ショップはすべてのブラウザで適切かつ迅速にロードされていますか。すべてのデバイスにおいてそうなっているでしょうか。ご自身はiPhone Xをお持ちかもしれませんが、誰かしらは2005年からずっとMotorola Razerを使用しているかもしれません。サイトが適切かつ迅速に機能していない場合、変換ができなくなります。
オンサイト調査：ビジターが閲覧している時にポップアップ表示されます。例えば、同じページにしばらく滞在しているビジターに、購入を妨げている何かがあるかどうかを尋ねることがあります。妨げているものがあるとしたら、それは何でしょうか。この定性的データを使用し、コンバージョン率を改善することができます。
顧客インタビュー：電話でお客様と話すこと以上に優れた方法はありません。なぜ競合店でなく当ショップを選んだのでしょうか。サイトに辿り着いた時、どのような問題を解決したいと思っていたのでしょうか。お客様はどのような方々で、なぜショップから購入するのか、核心に迫る無数の質問を投げかけることができます。
顧客調査：ビジターではなく、既に購入した方々を対象にしたフルレングスの調査です。調査を設計する際には、お客様やお客様の解決したいと望んでいる問題、購入前に何をためらっているのかを定義し、お客様がショップについて説明する際に使用する語句の特定を行います。
解析結果の分析：分析ツールは、データを正しく追跡また報告しているでしょうか。間違った設定がなされた分析ツールは非常に多く存在しています。解析結果の分析とは、解析の中に飛び込んでゆき、ビジターがどのように行動するのかを分析することです。例えば、ビジターの多くが逸脱しがちな場所が分かれば、そこはテストを開始するのに適しています。
ユーザーテスト：お客様がサイトでタスクを実行しようとするところを見ることができます。例えば、40～60ドルの範囲内でビデオゲームを見つけてカートに追加するよう勧めることもできますし、タスクが実行されている間、お客様の考えや行動が手に取るように分かります。
セッションリプレイ：ユーザーテストに似ていますが、リアルなお金と購入意欲を持った、リアルなお客様に対応しています。実際にビジターがサイトを航行するのを見ることができ、商品を見つけるのにどこで苦労しているか、または混乱しているのかなどが分かります。

他にもリサーチ方法はありますが、以上の7つの方法は良い出発点となるでしょう。いくつか実行してみると、データに基づいたテスト内容の膨大なアイディアリストを手にすることができ、「今すぐテストすべき99のこと」といった記事よりもずっと多くの価値をもたらすでしょう。

A/Bテストアイデアの優先順位

A/Bテストの膨大なアイデアリストはエキサイティングですが、テストの対象を決定するのには、正確には役立ちません。では、どこから始めたらよいのでしょうか。そこで、優先順位を付ける作業を行います。

以下、一般的な優先順位付けのフレームワークをいくつかご紹介します。

ICE：ICEは、影響力（Impact）、信頼性（Confidence）、容易性（Ease）の略です。各要因に対して、1～10のランキングを設定します。例えば、開発者や設計者の助けを借りずに自分で簡単にテストを実行できる場合は、容易性を8にするとよいでしょう。ご自身の判断基準を使用しつつも、テストを実行する人が複数いる場合、ランキングが主観に偏る可能性があるので、客観的に判断するためのガイドラインがあると役立ちます。
PIE：PIEは、潜在力（Potential）、重要性（Importance）、容易性（Ease）の略です。こちらも同様に1～10のランキングを設定します。例えば、テストがトラフィックの90%に達する場合は、重要性を8に設定できます。PIEはICE同様主観に偏りやすく、ここでも客観性に導くガイドラインが役立ちます。
PXL：PXLは、CXLの優先順位付けのフレームワークです。こちらは他の二つと少し違い、よりカスタマイズが可能で、客観的な決定が下されます。上記のような3つの要素ではなく、「はい」「いいえ」による簡単な実行形式です。例として、フレームワークは、「テストはモチベーションを高めるよう設計されていますか。」と尋ねてくるかもしれません。「はい」の場合、ランキングの1を、「いいえ」の場合は０を取得します。

どこから始めればよいか、既にアイデアが浮かんでいることと思いますが、以上はアイデアをカテゴライズするのにも役立ちます。例えば、最近行ったコンバージョン調査では、実行、調査、テストの3つのカテゴリーを使用しました。

実行：あとは実行するだけのもの。壊れているかどうかが分かります。
調査：問題を定義し、解決方法を絞り込むためにその他の考えを必要とするもの。
テスト：健全でしっかりとしたデータに基づいているもの。テストしましょう！

A/Bテスト統計の集中訓練

テストを実行する前に、統計について掘り下げることが大切です。統計は通常あまり気の進む作業とはならないようですが、必要な勉強と捉えましょう。

統計は、A/Bテストの大きな部分を占めています。今ではテストツールのおかげで、オプティマイザの仕事は楽になりましたが、テスト結果を後で分析するには、舞台裏で何が起こっているかを根本的に理解することが重要です。

HubSpotのグロースマーケティングマネージャーであるAlex Birkettはこのように説明しています。

Alex Birkett, HubSpot

「統計とは、コンバージョンの魔法の数や、バイナリの成功または失敗云々のことではありません。不確実性の下で意思決定を行い、結果の見通しに関する霧を取り払い、リスクを軽減するためのプロセスのことを言います。

そのことを念頭に置いて、平均値、分散、サンプリング、標準偏差、平均への回帰とは何なのか、代表的なサンプルが何によって構成されているのかなど、基本を知ることが大切です。さらに、A/Bテストを開始する際には、特定のガードレールを設けて人為的エラーをできる限り防ぐのにも役立ちます」

平均値とは何か

平均値とは、平均を意味する値のことです。目標は、全体を代表する平均値を見つけることです。

例えば、ビデオゲームの平均価格を見つけようとしているとします。世界中のすべてのビデオゲームの価格を加算するのではなく、すべてのビデオゲームの数で割るのでもありません。代わりに、世界中のすべてのビデオゲームを代表するサンプルを取り出します。

そして,数百のビデオゲームの平均価格を割り出します。代表的なサンプルを一つ選択した場合,200のビデオゲームの平均価格は、世界中のすべてのビデオゲームを代表していると考えます。

分散とは何か

分散とは、予測値のばらつきの大きさを表します。基本的に変動性が大きいほど、個々のデータポイントの予測における平均値の精度は低くなります。

それでは、平均値は、個々のビデオゲームの実際の価格にどのくらい近いのでしょうか。

サンプリングとは何か

サンプルサイズが大きいほど、ばらつきが少なくなり、平均値が正確になる可能性が高まります。

例えば、サンプルを200のビデオゲームから2000に増やした場合、ばらつきはより少なくなり、さらに正確な平均値となります。

統計的有意性とは何か

AとBの間に違いはないと仮定した場合、どれだけの頻度で偶然に効果が見られるでしょうか。

統計的有意性のレベルが低いほど、勝った方のバリエーションは、実は全く勝者でははなかったという可能性も大きくなります。

簡単にいうと、有意水準が低い場合、勝者が本当の勝者ではない可能性が高いということです。（これが、偽陽性と言われるものです。）

ほとんどのA/Bテストツールは、事前に決定されたサンプルサイズまたはある時点に達するのを待たずに、統計的有意性を得たと判定することに注意しましょう。そのため、統計的に有意なものとそうでないものとの間でテストが反転することに気付く場合があります。

CXL Instituteの創設者であるPeep Lajaは、統計的有意性と、なぜそれが重要なのかをより多くの人たちが真に理解してくれることを願い、次のように語っています。

Peep Laja, CXL Institute

「統計的有意性と妥当性は等しくはなく、テストを停止するためのルールとはなりません。統計的有意性が95%以上になると、他の2つのより重要な条件が満たされる前に、ほとんど意味をなさなくなります：

1.十分なサンプルサイズがあること。サンプルサイズ計算機を使用して計算します。実験に十分な人数が参加していれば、どのようなことも結論付けることができます。

2.サンプルが代表的なものとなるまで、テストを十分な期間実施します。（サンプル汚染を回避するため、期間は長すぎないようにしてください。）多くの場合、必要なサンプルを取得する速度に応じて、テストを2~4週間実行します」

平均への回帰とは何か

A/Bテストの開始時には、極端な変動に気付く場合があります。

平均への回帰とは、最初の測定で何かが極端だった場合、2回目の測定では平均に近づく可能性が高いという現象です。

テストを停止する唯一の理由が、統計的有意性に達したためであった場合、偽陽性が発生している可能性があります。勝ったバリエーションは、時間と共に平均値に回帰していく可能性があります。

統計的検出力とは何か

AとBに違いがあると仮定すると、どのくらいの頻度で効果が見られるか？

パワーレベルが低いほど,勝者が認識されない可能性は高くなります。逆に,パワーレベルが高いほど,その可能性は低くなります。ここでは、ほとんどのA/Bテストにおいて、80%の統計的検出力が標準であるということを知っていれば大丈夫です。

Online Dialogueの創設者であるTon Wesselingは、より多くの人たちに統計的検出力について知ってほしいと願いつつ、次のように語っています。

Ton Wesseling, Online Dialogue

「多くの方々が偽陽性の心配をしますが、私たちはむしろ偽陰性の心配をしています。肯定的な変化が影響を与える証拠を見つける可能性が低い実験を、どうしてわざわざ実行するのでしょうか」

外的妥当性の脅威とは何か

テストの有効性を脅かす外的要因があります。例えば：

ブラックフライデー、サイバーマンデーセール
報道におけるポジティブまたはネガティブな言及
主要な有料キャンペーンの開始
曜日
変化する季節

例えば、12月にテストを実行するとします。そうすると、ホリデーシーズンなどによって、その月間はトラフィックが増加するかもしれませんが、1月になると、勝者の業績はそれほど芳しくないといったことに気付くかもしれません。

それはなぜかというと、休日という外的妥当性の脅威のためです。

テストの決定に基づいたデータが異例だったので、1月に入って状況が落ち着いてみると、勝者が負けていることに驚くかもしれません。

外的妥当性の脅威を排除することはできませんが、テストを1週間の間（月曜日にテストを開始して金曜日に終了しないように。）実行することで軽減できます。様々な種類のトラフィックを含めるようにして（有料のトラフィックのみをテストしてから、結果をすべてのトラフィックソースに反映させたりしないように）潜在的な脅威に十分注意しましょう。

A/Bテストのセットアップ方法

何かをテストする時には、事前に堅固な仮説を立てる必要があります（たった今数学のレッスンを終えたところで、今度は科学に取り組もうとしています）。

といってもそれほど複雑ではなく、基本的にアイディアより仮説をテストする必要があります。仮説は測定可能であり、特定のコンバージョンの問題解決を目指していて、勝つことよりも洞察に焦点を当てています。

アイディアではなく、仮説をA/Bテストする必要があります

仮説を作成する時は、Craig Sullivanの仮説キットから借用した公式を使用することができます。

「データを挿入/リサーチからのフィードバック」を見たので
「テストの変更」が「予想される影響」を引き起こすことを期待しています。
「データメトリック」を使用してこれを測定します。

とても簡単です。空白を埋めるだけで、テストのアイディアを仮説に変えることができてしまいます。

A/Bテストツールの選択

それでは、いよいよA/Bテストツールを選択しましょう。たいていの場合、Google Optimize、Optimizely、VWOなどを最初に思い浮かべるのではないでしょうか。これらはすべて適切で安全なオプションです。

Google Optimize: 多変量の制限の一部は、無料で保存できます。始めたばかりの時にはあまり影響することなく、Google Analyticsと密接に連携していることがプラスに働きます。
Optimizely：技術的なスキルがなくても、簡単なテストを容易に実行できます。Stats Engineによって、テスト結果の分析が容易になります。通常、Optimizelyは3つの中で最も高価なオプションとなります。
VWO：VWOには、分析を容易にするSmartStatsがあります。さらに初心者向けに優れたWYSIWYG（ウィジウィグ）エディターがあります。すべてのVWOプランに、ヒートマップ、オンサイトサーベイ、フォーム分析などが付随しています。

また、Shopify アプリストアにも、役に立つテストツールがいくつかあります。

ツールを決めたら、サインアップし指示に従ってください。プロセスはツールによって異なりますが、通常はサイトにスニペットをインストールして目標設定するよう求められるでしょう。

A/Bテスト結果を分析する

先ほど、仮説の作成によって、勝つことから洞察に焦点を移すことについて言及しましたが、Googleのアナリティクスアドボケイト及びプロダクトマネージャーであるKrista Seidenは、そのことを次のように説明しています。

Krista Seiden、Google

「A/Bテストにおいて最も見落とされているのは、敗者から学ぶことです。実際に私が実行した最適化プログラムでは、『失敗レポート』を発行する習慣を作り、その四半期における最大の敗者から学んだことを記録するようにしています。

一番好きな出来事の一つは、制作に数ヶ月かかったキャンペーンでのことでした。新しいキャンペーンのランディングページのA/Bテストを実行する直前に、こっそり潜入することができたのは良かったです。というのも、惨めに失敗したので。実際にページを起動した場合、最終的な収益に大きな打撃を与えていたでしょうから。結果として、大幅に節約できただけでなく、新しいページのパフォーマンスが非常に低かった理由（後にテストしました）を掘り下げ、推測することができたのです。それによってマーケッターとしての質も向上し、その後のキャンペーンの成功が増えました」

仮説を正しく作成すると、将来のテストや他の分野にも活用できる洞察が得られますので、敗者ですらも勝者になります。テスト結果を分析する時には、テストの勝敗に関わらず、洞察に集中するようにしてください。そこから常に学ぶべきもの、分析すべきことがあります。敗者を退けることなく、そこから学ぶようにしましょう！

仮説を正しく作成すれば、敗者ですらも勝者になります。

ここで注意すべき重要なことは、セグメンテーションの必要性です。テストは全体的に敗者となる可能性もありますが、少なくとも1つのセグメントでは上手く機能する可能性があります。セグメントとは、次のようなものを指します。

新しいビジター
再訪するビジター
iOSのビジター
Androidのビジター
Chromeのビジター
Safariのビジター
デスクトップのビジター
タブレットのビジター
オーガニックサーチのビジター
有料のビジター
ソーシャルメディアのビジター
ログインした購入者

テストツールで結果を見る時は、例えるならば、Smarties（一粒ずつカラフルにコーティングされたチョコレート）のパック全体を見ています。ここでは、最後に赤い粒を食べられるように、色ごとに分ける作業が必要です。

オッズは、仮説が特定のセグメント間で正しく証明されたということで、これも何らかの事柄を教えてくれます。

A/Bテストツールは分析まで行わないため、繰り返すことによってスキルを高めていくことが大切です。

過去のA/Bテストをアーカイブする方法

明日、最初のテストを実行するとして、2年後になってもテストの詳細を覚えているでしょうか。さすがに難しいですよね。

そこで、A/Bテスト結果をアーカイブすることが重要になります。適切に管理されたアーカイブなしには、せっかく手にした洞察も失われてしまうことでしょう。実際のところ、アーカイブされていない場合に再テストをすること自体は簡単です。

アーカイブするための「正しい」方法というのはなく、ProjectsやEffective Experiments、またはエクセルなどのツールを使用することも可能です。特に始めたばかりの頃はどのような方法でも良いのですが、次の事柄については追跡するようにしましょう。

仮説
コントロールとバリエーションのスクリーンショット
勝ったか負けたか
分析を通じての洞察

ビジネスが成長するにつれ、アーカイブがあることに感謝するでしょうし、経営者だけでなく、新規採用者やアドバイザー、利害関係者の方々にとっても役立ちます。

プロのA/Bテストプロセス

標準のA/Bテストプロセスについて学びましたので、GoogleやHubSpotなどの企業のプロによる正確なプロセスを見てみましょう。

Krista Seiden, Google

A/Bテストへの段階的なプロセスは、分析から始まります。いかなる優れたテストプログラムにおいても、分析はコアとなります。ここでの目標は、最適化の機会がどこにあるかを探るために、分析データ、リサーチまたはUXデータ、その他顧客の洞察に関するソースを分析することです。

分析から適切なアイディアの骨子が得られたら、次に何が間違っているのか、修正及び改善できるように仮説を立てましょう。

ここまで来たら、いよいよテストを作成して実行します。必ず妥当な期間（1週間ごとの変更、または例外を考慮しデフォルトで2週間）実行するようにして、十分なデータがある場合は結果を分析し、勝者を決定しましょう。

この段階で時間をかけて敗者について分析することも重要です。このバリエーションから、どのようなこと何を学べるでしょうか。

最適化プログラムの確固たる基礎を築くために時間と労力を費やして初めて,ここに到達できるのではないかと思います。最後に、パーソナライゼーションについて検討します。必ずしもツールが必要というわけではありませんが、ユーザーに関して収集したデータから取得することができます。

パーソナライゼーションは、適切なコンテンツを適切な場所にターゲティングするのと同じくらい簡単な時もあれば、それぞれのユーザーのアクションに基づくターゲティングのように複雑な時もあります。ただし、パーソナライゼーションに一息に移ろうとするのではなく、基本を正しく理解するために十分な時間を費やしましょう。

Alex Birkett, HubSpot

以下のプロセスを高いレベルにおいて行うようにしています：

データを収集、分析の実施が正確であることを確認
データを分析、洞察を得る
洞察を仮説に変換する
影響力と容易性に基づいて優先順位を付け、リソース（特にテクニカルリソース）の割り当てを最大化する
テストを実行する（統計のベストプラクティスに従い、知識と能力を最大限に引き出す）
結果と実行を分析、または結果に基づかない分析
調査結果に基づいて繰り返す

簡単に言うと、リサーチ、テスト、分析の繰り返しです。

コンテクストの内容（重要な製品の機能をテストしていますか。CTAのブログ投稿ですか。リスクプロファイルとイノベーションのバランスに対し、リスク軽減のバランスはどうなっているでしょうか）に基づいてプロセスを外すことも、変更することも可能ですが、あらゆる規模や種類の企業に適用できます。

重要な点として、このプロセスは敏捷性がありますが、質の高い顧客フィードバックと定量的分析の両方の十分なデータを収集し、より良いテストのアイディアを考え出し、トラフィックを無駄にしないよう、優先順位を付けられるようにしましょう。

Ton Wesseling, Online Dialog

カスタマージャーニーを最適化する際に常に問われることは、この製品またはサービスが、オンラインダイアログで作成したROARモデルのどこに当てはまるかです。まだ多くのリサーチを行うべきリスク段階にあるけれども、オンラインの実験（1ヶ月あたり1,000コンバージョン未満）で調査結果を検証できるのでしょうか。または最適化の段階にあるか、もしくはそれ以上でしょうか。

Risk Phase リスクの段階：たくさんのリサーチが必要で、ビジネスモデルの方向転換から全く新しい計画や価値の提案まで、あらゆるものに変換される可能性があります。
Optimization Phase 最適化の段階：価値の提案とビジネスモデルを最適化するために大規模な実験を行います。
Optimization Phase 最適化の段階：ユーザーのアクションへの仮説を検証するための小規模な実験。これにより、大規模な計画変更に関する知識が蓄積されます。
Automation オートメーション化：まだ実験を行うための力（すなわちビジター）が残っているため、ユーザージャーニーを検証する完全なテストである必要はありません。残っているビジターを、さらに速い成長のために活用する必要があります。（ここで長期的な学習に焦点を当てることはありません。）これは、バンディットの実行及びアルゴリズムの使用によって自動化が可能です。
Re-think 再考：新しく方向転換をするのでない限り、数多くのリサーチを追加するのをやめます。

従って、A/Bテストは、ROARの最適化とそれ以降（再考まで）の段階において唯一の大きな作業となります。

実験を実行するためのアプローチは、FACT&ACTモデルです。

私たちが行うリサーチは、5Vモデルに基づいています。：

これらすべての洞察を集め、リサーチに裏付けられた主要な仮説を導き出します。これにより、収集されたデータに基づいて優先順位を付けるサブ仮説が導き出されます。仮説が真実である可能性が高いほど、ランク付けが高くなります。

仮説が真実か虚像かを学習したら、それらを組み合わせてカスタマージャーニーの大部分を再設計または調整し、より大きなステップへと踏み出すことができます。ただし、ある時点において、すべての成功した実行はローカル最大値に繋がります。それから、潜在的なグローバル最大値に到達するために、より大きなステップを踏む必要があります。

そしてもちろんのこと、主要な学習は会社全体に広がり、有効な洞察に基づいて、あらゆる種類のより広い最適化と革新へと繋がっていくでしょう。

Julia Starostenko, Shopify

実験の目的は、既存のウェブページに有効な変化を与え、ビジネスにインパクトを与えることです。

開始する前に、実験を実行することが本当に必要かどうかを判断することが大切です。次のシナリオについて検討してみましょう。ここに、クリック率が非常に低いボタンがあります。このボタンのパフォーマンスはこれ以上低下しないと思われますので、変更の有効性を検証する（つまり実験を実行する）必要はありません。

同様に、ボタンに提案されている変更が小さい場合も、実験の設定や実行、破棄に時間を費やす価値はおそらくないでしょう。この場合、変更は全員に示され、ボタンのパフォーマンスを監視できます。

実験の実行が有益であると判断した場合、次のステップとは、改善の必要のあるビジネス指標を定義することです。（例えば、ボタンのコンバージョン率を上げる。）次に、適切なデータ収集が行われていることを確認します。

これが完了すると、オーディエンスはランダムに2つのグループに分割されます。一つのグループには既存のバージョンのボタンが表示され、もう一方のグループには新しいバージョンが表示されます。各オーディエンスのコンバージョン率が監視され、統計的有意性に達すると、実験の結果が決定されます。

Peep Laja, CXL Institute

A/Bテストは、より大きなコンバージョン最適化のビジョンの一部です。私の意見では、リサーチは80%、テストは20%を占めるのみです。コンバージョンリサーチは、最初に何をテストすべきかを決定するのに役立ちます。

ブロセスは通常、要約すると次のようになります：

ResearchXLなどのフレームワークを使用してコンバージョン調査を実施し、サイトの問題を特定します。
優先度の高い問題（ユーザーの大部分に影響する重大な問題）を選択し、解決策をできるだけ多くブレインストーミングします。コンバージョン調査の洞察によって、アイディア作成のプロセスを知らせます。そして、テストを実行するデバイスを決定します。（デスクトップとモバイルでは、別々のテストを実行する必要があります。）
トラフィック/トランザクションレベルに基づいて、テスト可能なバリエーション数を決定し、コントロールに対し、ソリューションのためのベスト1、2のテストアイディアを選択します。
正確な処理のワイヤーフレーム化（コピーの作成、設計の変更など）。変更の範囲によっては、新しい要素を設計するためのデザイナーを含める必要があります。
フロントエンド開発者に、テストツールで処理を実行してもらいます。必要な統合（Google Analytics）を設定し、適切な目標を設定します。
テストでQAを実施し（壊れたテストは最大のA/Bテストキラーです）、すべてのブラウザ/デバイスのコンボで機能することを確認します。
テストを開始します！
テストが完了したら、テスト後の分析を実施します。
結果に応じて、勝者を実装するか、治療を反復するか、他の何かをテストします。

それでは始めましょう！

以上によって、A/Bテストのプロセスを理解されたことと思いますので、いよいよテストを始めましょう！その後の洞察によって、利益が増えることを願っています。

原文：Shanelle Mullin

よくある質問

A/Bテストとは？