Tests AB - Geek et Shift

Cet article a été rédigé par Florent

Aujourd’hui, on ressort les calculettes et nos formulaires de statistiques!

Beaucoup d’entre vous ont entendu parler de tests A/B, voire les pratiquent déjà. Mais êtes-vous sûr de bien interpréter les résultats?

Les tests A/B sont une technique statistique où on présente aléatoirement deux versions d’un même élément: par exemple, une page d’accueil avec une photo ou une page d’accueil avec des vidéos.

Ces tests sont pratiqués depuis le début des années 2000, le premier test de grand ampleur connu a été réalisé par Google pour déterminer le nombre optimal de résultats par page (la réponse fut 10!).

Le plus souvent, on présent ces tests avec ce que l’on appelle un intervalle de confiance, sous cette forme: « Nous sommes à 95% certains que A est plus performant que B »

Pour arriver à cette conclusion, il faut valider un certain nombre de choses auxquelles nous ne pensons pas toujours:

Sommes-nous certains que A et B sont strictement indépendants?
Sommes-nous certains que les populations exposées à A et B sont réellement semblables (par exemple, envoyer tous les clients espagnols vers la version A et tous les clients belges vers la version B: qui dit que les espagnols régissent de la même façon à une video que les belges?)
Quand faut-il arrêter le test?

C’est bien souvent sur cette dernière question que les tests AB pêchent. En effet, pour assurer la validité statistique, il faut en théorie au préalable définir le nombre de tests. Deux problèmes à cela: sur des éléments à faible trafic, il est parfois long d’atteindre le nombre correspondant au seuil de confiance fixé (95 ou 99% généralement). L’autre problème est qu’on expose parfois 50% de ses visiteurs à un élément qui convertit extrêmement mal! Perdre deux points de taux d’engagement sur 50% de son trafic pendant 1 jour, 1 semaine ou 1 mois, cela peut donner lieu à des pertes financières très importantes!

Plusieurs solutions sont possibles mais leur démonstration sort du cadre de cet article.

L’une est d’utiliser un dérivé du test du khi-2 (le G-Test) sur les variables (qui permettra de vérifier que l’on n’est pas dans un cas indécidable), l’autre est de prendre une approche dite bayésienne (qui permettra de stopper l’expérience dès que la réussite de A est supérieure à celle de B d’un certain seuil)

Enfin, et c’est là le plus important, vos tests doivent être solides, de manière à se défaire d’un défaut malheureusement très courant dans les processus de décision: l’avis du plus haut salaire est considéré comme le meilleur: « Highest-Paid Person Opinion », ou HiPPO.

Cet article récent de Wired en est la parfaite illustration: les dirigeants d’Amazon ne croyaient pas aux recommendations pour l’achat d’impulsion, les données leur ont montré qu’ils avaient tort!

http://www.wired.com/epicenter/2012/04/ff_abtesting/all/1

Si le sujet des statistiques appliquées au marketing vous intéresse, un prochain article suivra sur le Multi Variable Testing, ses contraintes et ses applications.

Facebook

Twitter

Un commentaire

Jean-Michel Glaudeix dit :

11 mai 2012 à 14:38

@Florent via François: Merci de cet article qui relie les pratiques marketing courantes à des notion de maths ou au minimum de stat fondamentales.

Outre la mauvaise interpretation des résultats pour non maitrise des sous jacents mathétiques (taille de l’échantillon, indédendance, etc.), je crois que l’on peut y ajouter la distorsion propre à celui qui fait le test. Pour illustrer et être tout à fait clair: Prenez une sauterelle, coupez lui les pattes, demandez lui de sauter … évidemment elle ne s’execute pas. Conclusion du test, arracher les pattes d’une sauterelle la fait devenir sourde!

C’est souvent ce qui se passe lors de tests et de l’interpretation des résultats. On peut toujours interpreter un résultat à sa convenance, selon ce que l’on cherche à démontrer. D’ou l’importance de définir clairement les conditions du test – de manière rigoureuse et en revenant le plus possible aux fondamentaux.

Evidemment c’est moins « FUN » et demande beaucoup de sérieux … sérieux dans des équipes MKT … mais qu’est ce que je raconte …

Répondre

Un commentaire

Laisser un commentaire Annuler la réponse