Cet article a été rédigé par Florent
Aujourd’hui, on ressort les calculettes et nos formulaires de statistiques!
Beaucoup d’entre vous ont entendu parler de tests A/B, voire les pratiquent déjà. Mais êtes-vous sûr de bien interpréter les résultats?
Les tests A/B sont une technique statistique où on présente aléatoirement deux versions d’un même élément: par exemple, une page d’accueil avec une photo ou une page d’accueil avec des vidéos.
Ces tests sont pratiqués depuis le début des années 2000, le premier test de grand ampleur connu a été réalisé par Google pour déterminer le nombre optimal de résultats par page (la réponse fut 10!).
Le plus souvent, on présent ces tests avec ce que l’on appelle un intervalle de confiance, sous cette forme: « Nous sommes à 95% certains que A est plus performant que B »
Pour arriver à cette conclusion, il faut valider un certain nombre de choses auxquelles nous ne pensons pas toujours:
- Sommes-nous certains que A et B sont strictement indépendants?
- Sommes-nous certains que les populations exposées à A et B sont réellement semblables (par exemple, envoyer tous les clients espagnols vers la version A et tous les clients belges vers la version B: qui dit que les espagnols régissent de la même façon à une video que les belges?)
- Quand faut-il arrêter le test?
C’est bien souvent sur cette dernière question que les tests AB pêchent. En effet, pour assurer la validité statistique, il faut en théorie au préalable définir le nombre de tests. Deux problèmes à cela: sur des éléments à faible trafic, il est parfois long d’atteindre le nombre correspondant au seuil de confiance fixé (95 ou 99% généralement). L’autre problème est qu’on expose parfois 50% de ses visiteurs à un élément qui convertit extrêmement mal! Perdre deux points de taux d’engagement sur 50% de son trafic pendant 1 jour, 1 semaine ou 1 mois, cela peut donner lieu à des pertes financières très importantes!
Plusieurs solutions sont possibles mais leur démonstration sort du cadre de cet article.
L’une est d’utiliser un dérivé du test du khi-2 (le G-Test) sur les variables (qui permettra de vérifier que l’on n’est pas dans un cas indécidable), l’autre est de prendre une approche dite bayésienne (qui permettra de stopper l’expérience dès que la réussite de A est supérieure à celle de B d’un certain seuil)
Enfin, et c’est là le plus important, vos tests doivent être solides, de manière à se défaire d’un défaut malheureusement très courant dans les processus de décision: l’avis du plus haut salaire est considéré comme le meilleur: « Highest-Paid Person Opinion », ou HiPPO.
Cet article récent de Wired en est la parfaite illustration: les dirigeants d’Amazon ne croyaient pas aux recommendations pour l’achat d’impulsion, les données leur ont montré qu’ils avaient tort!
Si le sujet des statistiques appliquées au marketing vous intéresse, un prochain article suivra sur le Multi Variable Testing, ses contraintes et ses applications.