いずれかの携帯電話でPlayストア/アプリストアを見ると、インストールされているほとんどのアプリのアップデートが先週中にリリースされていることがわかります。数週間後にWebサイトにアクセスすると、レイアウト、ユーザーエクスペリエンス、またはコピーにいくつかの変更が表示される場合があります。
今日のソフトウェア製品は、ユーザーにとって製品エクスペリエンスを向上させるものについての仮定と仮説を検証するために、繰り返し出荷されます。いつでも、booking.com(私が以前働いていた場所)のような企業は、まさにこの目的のために、自社のサイトで何百ものA / Bテストを実行しています。
インターネット経由で配信されるアプリケーションの場合、12〜18か月前に製品の外観を決定し、それを構築して最終的に出荷する必要はありません。代わりに、実装時にユーザーに価値をもたらす小さな変更をリリースすることは完全に実用的であり、ユーザーの好みや理想的なソリューションについて仮定する必要がなくなります。すべての仮定と仮説は、効果を分離するテストを設計することで検証できます。各変更の。
このアプローチにより、改善を通じて継続的な価値を提供することに加えて、製品チームはユーザーから継続的なフィードバックを収集し、必要に応じてコースを修正することができます。数週間ごとに仮説を作成してテストすることは、コースを修正して作成するための反復的なアプローチを構築するためのより安価で簡単な方法です。 製品価値 。
機能をユーザーに出荷する際には、現実の世界での影響を理解するために、設計と機能に関する仮定を検証することが不可欠です。
この検証は、従来、製品仮説検定を通じて行われます。この検定では、実験者が変更の仮説の概要を示し、成功を定義します。たとえば、 データプロダクトマネージャー アマゾンでは、より大きな商品画像を表示するとコンバージョン率が上がるという仮説を立てています。成功は、より高いコンバージョン率によって定義されます。
仮説検定の重要な側面の1つは、行われた変更に成功(または失敗)を帰することができるようにするために、製品エクスペリエンスのさまざまな変数を分離することです。そのため、Amazonのプロダクトマネージャーが、商品画像のすぐ横にカスタマーレビューを表示するとコンバージョンが向上するという仮説がさらにあった場合、両方の仮説を同時にテストすることはできません。これを行うと、原因と結果を適切に特定できなくなります。したがって、2つの変更を分離して、個別にテストする必要があります。
したがって、機能に関する製品の決定は、機能のパフォーマンスを検証するための仮説検定によって裏付けられる必要があります。
最も一般的なユースケースは、ランダム化されたA / Bテストによって検証できます。このテストでは、変更または機能がユーザーの半分にランダムにリリースされ(A)、残りの半分から差し控えられます(B)。アマゾンでのコンバージョンを改善するより大きな製品画像の仮説に戻ると、ユーザーの半分には変更が表示され、残りの半分には以前と同じようにWebサイトが表示されます。次に、各グループ(AおよびB)の変換が測定され、比較されます。より大きな製品画像を示したグループのコンバージョンが大幅に増加した場合、結論は元の仮説が正しく、変更をすべてのユーザーに展開できるということです。
春の例外処理のベストプラクティス
理想的には、各変数を分離して個別にテストし、最終的に変更を特定する必要があります。ただし、特にテストするバージョンが複数ある場合、このような順次テストアプローチは非常に遅くなる可能性があります。例を続けると、Amazonでの商品画像が大きいほどコンバージョン率が高くなるという仮説では、「大きい」は主観的であり、「大きい」のいくつかのバージョン(1.1x、1.3x、1.5xなど)では次のことが必要になる場合があります。テストされます。
このようなケースを順番にテストする代わりに、ユーザーを半分に分割するのではなく、複数のバリアントに分割する多変量テストを採用できます。たとえば、4つのグループ(A、B、C、D)はそれぞれユーザーの25%で構成されており、Aグループのユーザーには何の変化も見られませんが、バリアントB、C、Dのユーザーにはより大きな画像が表示されます。それぞれ1.1倍、1.3倍、1.5倍。このテストでは、最適なバリアントを特定するために、複数のバリアントが製品の現在のバージョンに対して同時にテストされます。
ネットワーク効果がある可能性があるため、ユーザーを半分に(または複数のバリアントに)分割できない場合があります。たとえば、テストでUberの急上昇価格を定式化するためのロジックが別のロジックよりも優れているかどうかを判断する場合、ロジックは都市全体の需要と供給の不一致を考慮しているため、ドライバーを異なるバリアントに分割することはできません。このような場合、テストは、結論に到達するために、変更前と変更後の効果を比較する必要があります。
ただし、ここでの制約は、テスト期間と制御期間に異なる影響を与える可能性のある季節性と外部性の影響を分離できないことです。 Uberの急上昇価格を決定するロジックに変更が加えられたとします。 t 、ロジックAが前に使用され、ロジックBが後に使用されるようにします。時間の前後の効果が t 比較することができますが、効果がロジックの変更のみによるものであるという保証はありません。 2つの期間の間に需要またはその他の要因の違いがあり、その結果、2つの期間に違いが生じた可能性があります。
テストの前後の欠点は、時間ベースのオン/オフテストを展開することで大幅に克服できます。このテストでは、変更がすべてのユーザーに一定期間導入され、同じ期間オフにされ、その後、より長い期間繰り返されます。
近接性の定義のゲシュタルト原理
たとえば、Uberのユースケースでは、変更を月曜日にドライバーに表示したり、火曜日に撤回したり、水曜日に再度表示したりできます。
この方法では、季節性と外部性の影響を完全に取り除くことはできませんが、それらを大幅に減らし、そのようなテストをより堅牢にします。
手元のユースケースに適切なテストを選択することは、最も迅速で最も堅牢な方法で仮説を検証するための重要なステップです。選択が完了すると、テスト設計の詳細を概説できます。
テスト設計は、以下の一貫した概要にすぎません。
商品画像が大きいほどAmazonでのコンバージョンが向上するという仮説の場合、成功の指標はコンバージョンであり、決定基準はコンバージョンの向上です。
適切なテストを選択して設計し、成功基準と指標を特定したら、結果を分析する必要があります。そのためには、いくつかの統計的概念が必要です。
テストを実行するときは、テスト用に選択された2つのバリアント(AとB)に成功メトリックに関してバイアスがないことを確認することが重要です。たとえば、大きな画像が表示されるバリアントのコンバージョン率が、変化が表示されないバリアントよりも高い場合、テストに偏りが生じ、誤った結論につながる可能性があります。
サンプリングに偏りがないことを保証するために、変更が導入される前に、成功メトリックの平均と分散を観察できます。
2つのバリアントの違いが観察されたら、観察された変化は実際の効果であり、ランダムな効果ではないと結論付けることが重要です。これは、成功指標の変化の重要性を計算することで実行できます。
素人の言葉で言えば、 意義 実際にはそうではないのに、大きな画像がより高いコンバージョンにつながることをテストが示す頻度を測定します。 力 テストで、画像が大きいほど実際にコンバージョンが高くなることがわかる頻度を測定します。
したがって、より正確な結果を得るには、テストの検出力の値を高くし、有意性の値を低くする必要があります。
コールオプション価格の計算方法
製品仮説検定に含まれる統計的概念の詳細な調査はここでは範囲外ですが、この面での知識を強化するために、次のアクションが推奨されます。
ユーザーに継続的に価値を提供するためには、さまざまな仮説をテストすることが不可欠です。そのためには、いくつかのタイプの製品仮説テストを使用できます。仮説を最終的に検証または無効化するには、上記のように、各仮説に付随するテスト設計が必要です。
このアプローチは、新しい変更や機能によってもたらされる価値を定量化し、最も価値のある機能に焦点を合わせ、段階的な反復を実現するのに役立ちます。
製品仮説は、製品の改善により、収益や製品使用統計などの重要なメトリックが増加するという仮定です。
仮説に必要な3つの部分は、仮定、条件、および予測です。
A / Bテストを実施して、製品の改善により追跡されるメトリックが増加することを確認します。
A / Bテストは、製品の改善によってメトリックに望ましい変化が生じるかどうかを確認するために使用されます。
A / Bテストと多変量テストは、仮説検定の一種です。 A / Bテストでは、製品を1回変更した場合と変更しない場合で、重要なメトリックがどのように変化するかを確認します。多変量テストでは、同じ製品の改善の複数のバリエーションを追跡できます。