A/Bテスト

A/Bテスト（英: A/B testing）（バケットテスト、スプリットランテスト、スプリットテストとしても知られる）は、ユーザーエクスペリエンスの研究手法である^[1]。A/Bテストは、通常2つの変数（AとB）を含むランダム化実験（英語版）から構成されるが^[2]^[3]^[4]、この概念は同じ変数の複数のバリエーションにも拡張することができる。これには仮説検定または統計学の分野で使用される「二標本仮説検定（英語版）」の適用が含まれる。A/Bテストは、単一の変数 (数学)の複数のバージョンを比較する方法であり、例えば被験者のバリアントAに対する反応をバリアントBと比較し、どちらのバリアントがより効果的かを判断する^[5]。

多変量テストまたは多項テストはA/Bテストに似ているが、同時に2つ以上のバージョンをテストしたり、より多くのコントロールを使用したりする場合がある。単純なA/Bテストは、観測、準実験的（英語版）または他の非実験的（英語版）な状況（調査データ、オフラインデータ、その他のより複雑な現象で一般的）には有効ではない。

定義

「A/Bテスト」は、単一のベクトル変数（英語版）のいくつかのサンプル（例：AとB）を比較する、単純なランダム化された制御（英語版）実験の略称である^[1]。A/Bテストは、特に2つの変数のみを含む場合、最も単純な形式の制御実験と広く考えられている。しかし、テストにより多くの変数を追加することで、その複雑さは増加する^[6]。

以下の例は、単一変数のA/Bテストを示している：

ある企業が2,000人の顧客データベースを持っており、ウェブサイトを通じて売上を生み出すために割引コードを含むメールキャンペーンを作成することを決定したとする。企業は、異なるコールトゥアクション（顧客に何かをするよう促すコピーの部分 - 販売キャンペーンの場合は購入を促す）と識別用のプロモーションコードを含む2つのバージョンのメールを作成する。

1,000人に対して、「オファーは今週土曜日で終了！コードA1を使用」というコールトゥアクションを含むメールを送信する。
残りの1,000人に対して、「オファーは間もなく終了！コードB1を使用」というコールトゥアクションを含むメールを送信する。
メールのコピーとレイアウトの他の要素はすべて同一である。

その後、企業はプロモーションコードの使用を分析することで、どちらのキャンペーンの成功率が高いかを監視する。コードA1を使用したメールは5%の回答率（英語版）（メールを受け取った1,000人のうち50人がコードを使用して製品を購入）、コードB1を使用したメールは3%の回答率（受信者のうち30人がコードを使用して製品を購入）となった。したがって、企業はこの場合、最初のコールトゥアクションがより効果的であると判断し、今後の販売で使用することにする。より洗練されたアプローチでは、A1とB1の間の回答率の違いが有意であるかどうか（つまり、その違いが実際のもので、再現可能で、偶然によるものではない可能性が高いかどうか）を判断するために統計的検定を適用する^[7]。

上記の例では、テストの目的は顧客に購入を促す最も効果的な方法を決定することである。しかし、もしテストの目的がどちらのメールがより高いクリック率（英語版）—つまり、メールを受け取った後に実際にウェブサイトをクリックした人数—を生成するかを確認することであれば、結果は異なる可能性がある。

例えば、コードB1を受け取った顧客の方が多くウェブサイトにアクセスしたとしても、コールトゥアクションにプロモーションの終了日が記載されていなかったため、多くの顧客が即座に購入する緊急性を感じなかった可能性がある。したがって、テストの目的が単にどちらのメールがより多くのトラフィックをウェブサイトにもたらすかを確認することであれば、コードB1を含むメールの方が成功していた可能性が高い。A/Bテストは、売上の数、クリック率の変換、または登録/登録する人数など、測定可能な定義された結果を持つべきである^[8]。

一般的な検定統計量

二標本仮説検定（英語版）は、実験における2つの制御ケースによって分割されたサンプルを比較する際に適切である。Z検定は、正規性と既知の標準偏差に関する厳密な条件下で平均を比較する際に適切である。T検定は、より少ない仮定のもとで緩和された条件下で平均を比較する際に適切である。ウェルチのt検定は最も少ない仮定で済むため、メトリックの平均を最適化する二標本仮説検定で最も一般的に使用される検定である。最適化する変数の平均が最も一般的な推定量の選択であるが、他の方法も定期的に使用される。

クリック率（英語版）のような2つの二項分布の比較には、フィッシャーの正確確率検定を使用する。

仮定される分布	例	標準的な検定	代替検定
正規分布	ユーザー1人あたりの平均収益	ウェルチのt検定 (対応のないt検定)	T検定
二項分布	クリック率（英語版）	フィッシャーの正確確率検定	バーナードの検定（英語版）
ポアソン分布	支払いユーザーあたりの取引数	E検定^[9]	C検定
多項分布	購入された各製品の数	カイ二乗検定	G検定
未知		マン・ホイットニーのU検定	ギブスサンプリング

セグメンテーションとターゲティング

A/Bテストは最も一般的に、全てのユーザーに対して同じバリアント（例：ユーザーインターフェース要素）を等しい確率で適用する。しかし、状況によっては、バリアントへの反応が異質である可能性がある。つまり、バリアントAが全体的に高い反応率を持っている一方で、顧客基盤の特定のセグメント内ではバリアントBがさらに高い反応率を持つ可能性がある^[10]。

例えば、上記の例では、性別による反応率の内訳は以下のようになっていた可能性がある：

性別	全体	男性	女性
総送信数	2,000	1,000	1,000
総反応数	80	35	45
バリアントA	50/ 1,000 (5%)	10/ 500 (2%)	40/ 500 (8%)
バリアントB	30/ 1,000 (3%)	25/ 500 (5%)	5/ 500 (1%)

この場合、バリアントAが全体的に高い反応率を示したが、男性に関してはバリアントBの方が実際には高い反応率を示したことがわかる。

その結果、企業はA/Bテストに基づいてセグメント化された戦略を選択し、将来的に男性にはバリアントB、女性にはバリアントAを送信することになるかもしれない。この例では、セグメント化された戦略により、期待される反応率は ${\textstyle 5\%={\frac {40+10}{500+500}}}$ から ${\textstyle 6.5\%={\frac {40+25}{500+500}}}$ に増加し、30%の上昇となる。

A/Bテストからセグメント化された結果が予想される場合、テストは当初から性別などの主要な顧客属性に対して均等に分布するように適切に設計されるべきである。つまり、テストは（a）男性対女性の代表的なサンプルを含み、（b）男性と女性を各「バリアント」（バリアントA対バリアントB）にランダムに割り当てる必要がある。これを怠ると、実験のバイアスが生じ、テストから不正確な結論が導き出される可能性がある^[11]。

このセグメンテーションとターゲティングのアプローチは、テスト結果に存在する可能性のあるより微妙なパターンを特定するために、単一の顧客属性ではなく、複数の顧客属性—例えば、顧客の年齢と性別—を含むようにさらに一般化することができる。

トレードオフ

肯定的な面

A/Bテストの結果は解釈が簡単で、ある選択肢を別の選択肢と直接比較しているため、ユーザーが何を好むかについて明確な考えを得るのに使用できる。実際のユーザー行動に基づいているため、2つの選択肢の間で何がより良く機能するかを判断する際に、そのデータは非常に有用である。

A/Bテストは、非常に具体的なデザインの質問に対する答えも提供できる。これの一例は、グーグルのハイパーリンクの色に関するA/Bテストである。収益を最適化するために、彼らはユーザーがどの色のリンクをより多くクリックする傾向があるかを確認するため、数十種類の異なるハイパーリンクの色調をテストした^[12]。

否定的な面

A/Bテストは分散 (確率論)に敏感である。標準誤差を減らし、統計的に有意な結果を得るためには、大きなサンプルサイズが必要である。人気のあるオンラインソーシャルメディアプラットフォームのように、アクティブユーザーが豊富なアプリケーションでは、大きなサンプルサイズを得ることは些細なことである。他の場合では、実験登録期間を延長することで大きなサンプルサイズを得る。しかし、マイクロソフトが考案したCUPED（Controlled-experiment Using Pre-Experiment Data）という技術を使用することで、実験開始前の分散を考慮に入れることができ、統計的に有意な結果を得るために必要なサンプル数を減らすことができる^[13]^[14]。

実験という性質上、A/Bテストを実施することは、ビジネスメトリクスに対して負の影響または影響がないなど、望ましくない結果が生じた場合、時間とリソースの無駄になるリスクを伴う。

2018年12月、13の異なる組織（Airbnb、アマゾン、ブッキングドットコム、フェイスブック、グーグル、リンクトイン、リフト、マイクロソフト、ネットフリックス、ツイッター、ウーバー、およびスタンフォード大学）からの大規模なA/Bテストの経験を持つ代表者たちが、SIGKDDエクスプロレーションズの論文で主要な課題をまとめた^[15]。これらの課題は、分析、エンジニアリングと文化、従来のA/Bテストからの逸脱、そしてデータ品質の4つの領域に分類できる。

歴史

A/Bテストが最初に使用された時期を明確に特定することは難しい。最初のランダム化二重盲検試験は、同種療法薬の有効性を評価するために1835年に実施された^[16]。現代のA/Bテストと比較される広告キャンペーンの実験は、20世紀初頭に始まった^[17]。広告のパイオニアであるクロード・ホプキンス（英語版）は、キャンペーンの効果を確認するためにプロモーション用クーポンを使用した。しかし、ホプキンスがサイエンティフィック・アドバタイジング（英語版）で説明したこのプロセスには、仮説検定で使用される有意性や帰無仮説などの概念は含まれていなかった^[18]。サンプルデータの有意性を評価するための現代の統計的手法は、同時期に別個に開発された。この作業は1908年にウィリアム・ゴセットによって行われ、Z検定を改良してT検定を作り出した^[19]^[20]。

インターネットの成長により、新しい母集団のサンプリング方法が利用可能になった。グーグルのエンジニアたちは、検索エンジンの結果ページに表示する最適な結果数を決定するために、2000年に最初のA/Bテストを実施した^[5]。最初のテストは、読み込み時間が遅いことによるトラブルのため失敗に終わった。その後のA/Bテスト研究はより高度になったが、基礎と基本原則は一般的に同じままであり、2011年にはグーグルの最初のテストから11年後に7,000以上の異なるA/Bテストを実施した^[5]。

2012年、マイクロソフトの従業員が検索エンジンマイクロソフト・ビングで広告見出しの表示方法を変えるテストを作成した。数時間以内に、代替フォーマットはユーザー体験メトリクスに影響を与えることなく、12%の収益増加を生み出した^[4]。今日では、マイクロソフトやグーグルなどの大手ソフトウェア企業は、それぞれ年間10,000件以上のA/Bテストを実施している^[4]。

A/Bテストは、特定の分野における哲学とビジネス戦略の変化であると主張する人もいるが、このアプローチは様々な研究伝統で一般的に使用される被験者間デザイン（英語版）と同一である^[21]^[22]^[23]。ウェブ開発の哲学としてのA/Bテストは、この分野を根拠に基づく実践へのより広範な動きと一致させる。

多くの企業が現在、関連するサンプル結果がポジティブな転換結果を改善できるという期待を持って、マーケティング決定を行う際に「設計された実験」アプローチを使用している。この分野のツールと専門知識が成長するにつれて、これはますます一般的な実践となっている^[24]。

応用

オンラインソーシャルメディア

A/Bテストは、リンクトイン、フェイスブック、インスタグラムなどの大手ソーシャルメディアサイトによって、新機能や製品などのオンライン機能に対するユーザーエンゲージメント（英語版）と満足度を理解するために使用されてきた。A/Bテストはまた、ユーザーがオフラインの時のネットワーク外部性、オンラインサービスがユーザーの行動にどのように影響するか、ユーザー同士がどのように影響し合うかなど、複雑な実験を行うためにも使用されてきた^[25]。

電子商取引

電子商取引ウェブサイトでは、パーチェスファネルは通常A/Bテストの良い候補である。なぜなら、離脱率（英語版）のわずかな減少でも、販売の大幅な増加につながる可能性があるためである^[26]。コピーテキスト、レイアウト、画像、色などの要素をテストすることで、時には大きな改善が見られることがあるが、必ずしもそうではない。これらのテストでは、2つのバージョンのどちらが好ましいかを発見することが目的であるため、ユーザーは2つのバージョンのうちの1つしか見ない^[27]。

製品価格設定

A/Bテストは、新製品やサービスが立ち上げられる際に最も難しい作業の一つである適切な価格を決定するために使用することができる。A/Bテスト（特にデジタル商品に有効）は、どの価格帯とオファリングが総収益を最大化するかを見つけ出す優れた方法である。

政治的A/Bテスト

A/Bテストは政治的キャンペーンでも使用されている。2007年、バラク・オバマの大統領選挙キャンペーン（英語版）は、オンラインでの注目を集め、有権者が大統領候補から何を見たいと考えているかを理解する方法としてA/Bテストを使用した^[28]。例えば、オバマのチームは、ユーザーがニュースレターに登録するための4つの異なるボタンをウェブサイトでテストした。さらに、チームはユーザーを引き付けるために6つの異なる付随画像を使用した。A/Bテストを通じて、スタッフは有権者を効果的に引き付け、追加の関心を集める方法を判断することができた^[28]。

HTTPルーティングとAPI機能テスト

A/Bテストは、新しいバージョンのAPIをデプロイする際に非常に一般的である^[29]。リアルタイムのユーザー体験テストのために、HTTPのレイヤー7 リバースプロキシは、HTTPネットワークトラフィックのN%が新しいバージョンのバックエンドインスタンスに向かい、残りの100-N%のHTTPトラフィックが（安定した）古いバージョンのバックエンドHTTPアプリケーションサービスに向かうように設定される^[29]。これは通常、新しいバージョンにバグがある場合、総ユーザーエージェントまたはクライアントのN%のみが影響を受け、他は安定したバックエンドにルーティングされるように、顧客の新しいバックエンドインスタンスへの露出を制限するために行われ、これは一般的なイングレス制御メカニズムである^[29]。

出典

^ ^a ^b Young, Scott W. H. (August 2014). “Improving Library User Experience with A/B Testing: Principles and Process”. Weave: Journal of Library User Experience 1 (1). doi:10.3998/weave.12535642.0001.101. hdl:2027/spo.12535642.0001.101.
^ Kohavi, Ron; Xu, Ya; Tang, Diane (2000). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. オリジナルの22 October 2021時点におけるアーカイブ。 22 October 2021閲覧。
^ Kohavi, Ron; Longbotham, Roger (2023). "Online Controlled Experiments and A/B Tests". In Phung, Dinh; Webb, Geoff; Sammut, Claude (eds.). Encyclopedia of Machine Learning and Data Science. Springer. pp. 891–892. doi:10.1007/978-1-4899-7502-7_891-2. ISBN 978-1-4899-7502-7. 2023年4月21日時点のオリジナルよりアーカイブ。2023年4月21日閲覧。
^ ^a ^b ^c Kohavi, Ron; Thomke, Stefan (September–October 2017). "The Surprising Power of Online Experiments". Harvard Business Review. pp. 74–82. 2021年8月14日時点のオリジナルよりアーカイブ。2020年1月27日閲覧。
^ ^a ^b ^c Hanington, Jenna (12 July 2012). “The ABCs of A/B Testing” (英語). Pardot. 2015年12月24日時点のオリジナルよりアーカイブ。2016年2月21日閲覧。
^ Kohavi, Ron; Longbotham, Roger (2017). “Online Controlled Experiments and A/B Testing”. Encyclopedia of Machine Learning and Data Mining. pp. 922–929. doi:10.1007/978-1-4899-7687-1_891. ISBN 978-1-4899-7685-7
^ “The Math Behind A/B Testing”. developer.amazon.com. 2015年9月21日時点のオリジナルよりアーカイブ。2015年4月12日閲覧。
^ Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (February 2009). “Controlled experiments on the web: survey and practical guide”. Data Mining and Knowledge Discovery 18 (1): 140–181. doi:10.1007/s10618-008-0114-1.
^ Krishnamoorthy, K.; Thomson, Jessica (2004). “A more powerful test for comparing two Poisson means”. Journal of Statistical Planning and Inference 119: 23–35. doi:10.1016/S0378-3758(02)00408-1.
^ “Advanced A/B Testing Tactics That You Should Know | Testing & Usability”. Online-behavior.com. 2014年3月19日時点のオリジナルよりアーカイブ。2014年3月18日閲覧。
^ “Eight Ways You've Misconfigured Your A/B Test”. Dr. Jason Davis (2013年9月12日). 18 March 2014時点のオリジナルよりアーカイブ。2014年3月18日閲覧。en:Template:self-published source
^ Statt, Nick (2016年5月9日). “Google is experimenting with turning search results from blue to black” (英語). The Verge. 2024年9月25日閲覧。
^ Deng, Alex (February 2013). Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data. WSDM '13: Proceedings of the sixth ACM international conference on Web search and data mining. doi:10.1145/2433396.2433413。
^ Sexauer, Craig (18 May 2023). “CUPED Explained”. 4 September 2024時点のオリジナルよりアーカイブ。11 September 2024閲覧。
^ Gupta, Somit; Kohavi, Ronny; Tang, Diane; Xu, Ya; Andersen, Reid; Bakshy, Eytan; Cardin, Niall; Chandran, Sumitha et al. (June 2019). “Top Challenges from the first Practical Online Controlled Experiments Summit”. SIGKDD Explorations 21 (1): 20–35. doi:10.1145/3331651.3331655. オリジナルの13 October 2021時点におけるアーカイブ。 24 October 2021閲覧。.
^ Stolberg, M (December 2006). “Inventing the randomized double-blind trial: the Nuremberg salt test of 1835”. Journal of the Royal Society of Medicine 99 (12): 642–643. doi:10.1177/014107680609901216. PMC 1676327. PMID 17139070.
^ “What is A/B Testing”. Convertize. 17 August 2020時点のオリジナルよりアーカイブ。2020年1月28日閲覧。
^ “Claude Hopkins Turned Advertising Into A Science”. インベスターズ・ビジネス・デイリー（英語版） (20 December 2018). 10 August 2021時点のオリジナルよりアーカイブ。2019年11月1日閲覧。
^ Pereira, Ron (20 June 2007). “How beer influenced statistics”. Gemba Academy. 5 January 2015時点のオリジナルよりアーカイブ。22 July 2014閲覧。
^ Box, Joan Fisher (1987). “Guinness, Gosset, Fisher, and Small Samples”. Statistical Science 2 (1): 45–52. doi:10.1214/ss/1177013437.
^ Christian, Brian (2000年2月27日). “The A/B Test: Inside the Technology That's Changing the Rules of Business”. Wired Business. 17 March 2014時点のオリジナルよりアーカイブ。2014年3月18日閲覧。
^ Christian, Brian. "Test Everything: Notes on the A/B Revolution | Wired Enterprise". Wired. 2014年3月16日時点のオリジナルよりアーカイブ。2014年3月18日閲覧。
^ Cory Doctorow (2012年4月26日). “A/B testing: the secret engine of creation and refinement for the 21st century”. Boing Boing. 9 February 2014時点のオリジナルよりアーカイブ。2014年3月18日閲覧。
^ “A/B Testing: The ABCs of Paid Social Media” (英語). エニーワード（英語版） (2020年1月17日). 31 March 2022時点のオリジナルよりアーカイブ。2022年4月8日閲覧。
^ Xu, Ya; Chen, Nanyu; Fernandez, Addrian; Sinno, Omar; Bhasin, Anmol (10 August 2015). “From Infrastructure to Culture: A/B Testing Challenges in Large Scale Social Networks”. Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 2227–2236. doi:10.1145/2783258.2788602. ISBN 9781450336642
^ “Split Testing Guide for Online Stores”. webics.com.au (August 27, 2012). 3 March 2021時点のオリジナルよりアーカイブ。2012年8月28日閲覧。
^ Kaufman, Emilie; Cappé, Olivier; Garivier, Aurélien (2014). "On the Complexity of A/B Testing" (PDF). Proceedings of The 27th Conference on Learning Theory. Vol. 35. pp. 461–481. arXiv:1405.3224. Bibcode:2014arXiv1405.3224K. 2021年7月7日時点のオリジナルよりアーカイブ (PDF)。2020年2月27日閲覧。
^ ^a ^b Siroker, Dan; Koomen, Pete (2013-08-07). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons. ISBN 978-1-118-65920-5. オリジナルの17 August 2021時点におけるアーカイブ。 15 October 2020閲覧。
^ ^a ^b ^c Szucs, Sandor (2018). Modern HTTP Routing (PDF). LISA 2018. Usenix.org. 2021年9月1日時点のオリジナルよりアーカイブ (PDF)。2021年9月1日閲覧。

表話編歴ソフトウェアテスト
The "box" approach	ブラックボックステスト en:All-pairs testing en:Exploratory testing en:Fuzz testing モデルベーステスト en:Scenario testing グレーボックステストホワイトボックステスト en:API testing ミューテーション解析静的コード解析
テストレベル	受け入れテスト統合テストシステムテスト単体テスト
Testing types, techniques, and tactics	A/Bテストベンチマーク en:Compatibility testing en:Concolic testing en:Concurrent testing en:Conformance testing en:Continuous testing en:Destructive testing en:Development testing 動的プログラム解析 en:Installation testing 回帰テスト en:Security testing en:Smoke testing (software) ソフトウェアパフォーマンステスト en:Symbolic execution テスト自動化ユーザビリティテスト
関連項目	en:Graphical user interface testing en:Manual testing 直交表テスト en:Pair testing ソークテスト en:Software reliability testing ストレステストウェブアプリケーションテスト
カテゴリ

定義