7 menaces qui affectent tous les tests A/B

16 février 2017

Temps de lecture :

10 min

L’A/B testing est un outil d’aide à la décision incroyable, mais il est très simple d’obtenir de faux résultats. Il faut suivre un process rigoureux, formuler des hypothèses, correctement analyser ses données, savoir quand mettre fin à un test et avoir un minimum de connaissances en statistiques. Et encore, même en faisant tout ce que nous venons d’énoncer parfaitement, vous pourriez tout de même vous retrouver avec des résultats … imaginaires.

Mais qui (ou quoi) vient donc invalider vos tests A/B ? Le monde entier— ou plutôt ce qu’on appelle des menaces externes de validité. Les ignorer pourrait vous coûter temps et argent. Les résultats de votre test A/B pourraient être faux si :

Vous ne vérifiez pas vos données votre outil de web analytics
Votre échantillon n’est pas représentatif de votre trafic global
Vous lancez trop de tests à la fois
Vous négligez l’effet Flicker
Vous laissez tourner vos tests pendant trop longtemps
Vous ne prenez pas en compte les évènements externes
Vous ne vérifiez pas la compatibilité/navigateur/plateforme

Ce billet est le 3^e d’une série consacrée aux erreurs faites en A/B testant.

Facteur 1 : Vous ne vérifiez pas vos données avec votre outil de web analytics

Il faut toujours avoir un moyen secondaire pour mesurer & comparer vos KPIs. Aucun outil n’est parfait, ne prenez pas de risques. Les problèmes lors de la mise en place d’un outil d’A/B testing sont trèèès fréquents. Vos objectifs et vos KPIs peuvent ne pas être correctement définis par exemple. Si vous repérez une irrégularité dans vos données après le lancement d’un test, arrêtez-le tout de suite. Vérifiez vos objectifs, KPIs et vos données et recommencez à zéro. Même chose à la fin d’un test. Vérifiez vos résultats via votre outil d’analytics avant de faire quoi que ce soit.

Vérifiez les données comme si votre entreprise en dépendait (et c’est le cas). Ce serait dommage de tout faire correctement et d’obtenir un test A/B discutable parce que l’outil n’était pas correctement configuré.

Facteur 2 : Votre échantillon n’est pas représentatif de votre trafic

Il n’est pas possible de mesurer « le vrai » taux de conversion : Il change en permanence et est fonction du trafic observé. Quand vous faites de l’A/B testing, vous prenez un échantillon représentatif de votre audience et l’exposez à l’expérience. Ensuite, vous analysez les résultats obtenus en les considérant comme représentatifs de votre trafic global et le taux de conversion mesuré comme étant suffisamment proche de la valeur réelle.

C’est pourquoi vous devriez inclure toutes les sources de trafic afin de représenter au mieux les visiteurs réguliers de votre site : nouveaux et visiteurs actuels, ceux issus des médias sociaux, du mobile, d’emails, etc. Assurez-vous de ne pas avoir de campagnes qui pourraient perturber votre trafic habituel pendant votre test : nouvelle campagne PPC, nouvelle newsletters, etc. Les internautes qui arrivent sur un site web via les campagnes PPC tendent à moins convertir que les visiteurs issus des autres sources. À l’inverse, ceux qui vous connaissent déjà seront beaucoup plus enclins à convertir. Notez que si l’un de vos concurrents mène une campagne en parallèle de votre test, votre trafic pourrait être également perturbé. On ne peut pas maitriser parfaitement ces facteurs, mais il faut essayer de minimiser au maximum la pollution des données.

Facteur 3 : Vous lancez trop de tests à la fois

Même si votre trafic est suffisamment important pour lancer plusieurs tests à la fois, il est souvent préférable de ne pas compliquer le processus. Sans même mentionner la collision possible des tests menés en parallèle, n’oubliez-pas vous aurez à rassembler, mesurer, analyser et décrypter les données pour chaque test. C’est un investissement de temps—et humaine important. Si vous décidez de lancer une vingtaine de tests en parallèle, assurez-vous de pouvoir les analyser a posteriori (sinon, vous perdez clairement votre temps). Ah, détail non négligeable, n’oubliez-pas non plus que chaque test peut aussi DIMINUER votre taux de conversion.

Avec plusieurs tests en parallèle, vous pourriez aussi avoir mal distribué votre trafic. Voici un exemple : imaginons que vous souhaitiez soumettre les étapes de validation du panier à un test A/B. À chaque palier, le trafic est divisé en deux. Sauf que si vous ne répartissez pas également et aléatoirement le trafic à la sortie de chaque palier testé, vos résultats seront biaisés à la fin. Rien ne vous empêche de faire plusieurs tests en parallèle. Il faut simplement faire très attention à la distribution du trafic, à l’influence que chaque test peut avoir sur un autre et que vous avez effectivement le temps et les effectifs (le temps aussi) pour les exploiter correctement.

Facteur 4 : Vous ne prenez pas en compte l’effet Flicker

L’effet Flicker (ça sonne un peu comme un titre de film, non ?) se produit lorsque les visiteurs aperçoivent la variation A (le contrôle) pendant le chargement de la variation B. Ca arrive souvent avec un outil dit « Client-side », à cause du temps nécessaire au JavaScript pour charger la page. Il faut que ce chargement ne soit pas visible à l’œil nu (soit moins de 0,0001 seconde). Vous n’avez pas envie que vos visiteurs voient les deux versions et se demandent ce qu’il se passe. D’où vient l’effet flicker ? Plusieurs raisons :

votre site lent à charger (affecte aussi l’UX et le SEO).
le chargement de trop de scripts avant celui de l’outil d’A/B testing.
un élément en conflit avec le script de l’outil.
un script mal intégré.

Optimisez ces éléments, ou redirigez vers des URL différentes lors du test. Rien ne doit être visible à l’œil nu. Si un visiteur remarque le test, il n’agira plus « normalement » et sera plus curieux.

Pour les utilisateurs de Kameleoon : n'ayez crainte, l'effet flicker n'est plus. Les super-héros de la R&D de Kameleoon sont en effet parvenu à y mettre un terme en développant le meilleur anti-flicker du marché.

Facteur 5 : Vos laissez vos tests tourner trop longtemps

C’est vrai, nous vous disions dans notre précédent article qu’il ne faut surtout pas arrêter un test A/B trop tôt. Mais laisser un test tourner trop longtemps peut aussi être un problème à cause des cookies. Les cookies sont des miettes digitales envoyées par les sites que vous visitez. Ils se sauvegardent dans nos navigateurs. Ils permettent de transmettre des données sur notre comportement aux différents sites que l’on parcourt. Les outils d’A/B testing utilisent les cookies. Or, les cookies utilisés ont une date d’expiration. Chez Kameleoon, cette date (personnalisable) est configurée par défaut à 30 jours. Dans ce cas, si vous lancez un test pendant plus de 30 jours, vos visiteurs pourront être soumis à votre test plusieurs fois puisqu’une fois les cookies expirés, votre outil ne pourra différencier ceux ayant déjà été sujets à votre test ou pas. Vos résultats se retrouveront ainsi biaisés.

N’oubliez pas que nous sommes nombreux(se) à supprimer nos cookies de façon assez régulière, ne serait-ce que pour fluidifier la navigation web. Il faut vous y faire, mais il est impossible d’éviter complètement la pollution des données.

Nous maintenons donc qu’un test long permet d’affiner votre étude et délivre des résultats au plus près de la justesse mathématique. Il faut juste s’assurer que la durée du test corresponde à la date d’expiration des cookies (surtout si vous décidez de repousser la fin d’un test).

On a aussi pu remarquer que Google a tendance à ne pas apprécier les tests trop longs. C’est un élément à garder en tête si vous ne voulez pas perdre de précieuses places de référencement.

Facteur 6 : Vous ne prenez pas en compte les évènements externes

Nous avons déjà parlé des variations de conversions qu’il peut y avoir d’un jour à l’autre. Beaucoup de facteurs entrent en jeu :

les vacances : tout dépend de l’activité de votre entreprise. Si vous vous appelez Magnum, vous pouvez vous douter que l’intérêt que la population vous porte sera décuplé pendant l’été. À l ‘inverse, si vous vendez une solution B2B, il y a de grandes chances pour que le mois d’août soit un peu creux.
le jour de paie : C’est un facteur important. On dépense nécessairement plus facilement avec les poches pleines.
L’actualité : grèves, assassinat, crash d’avion, etc. autant d’évènements qui peuvent affecter votre test car ayant un impact direct sur le comportement des gens. Une société de taxi ne devrait pas mener de test lors d’une grève à la SNCF par exemple.
le moment de la journée : les horaires varient selon l’activité et l’audience. Mais de manière générale, en B2B, les conversions s’effectuent en journée et en dehors des heures de travail en B2C.
le temps : si une tempête de neige est annoncée, vous vendrez plus de parka que d’habitude. Des études montrent que le temps a un impact décisif sur le comportement des acheteurs. Un site marchand a donc intérêt à adapter ses recommandations selon le temps qu’il fait là où se trouve le visiteur au moment de la connexion.

En bref, restez informé(e) et jetez un œil sur les statistiques des années précédentes pour prévoir les pics de trafic anormaux qui pourraient venir ruiner la validité de test.

Facteur 7 : Vous ne vérifiez pas la compatibilité de votre test sur différents navigateurs et terminaux

Votre test doit être fonctionnel sur tous les terminaux. Si une variation ne fonctionne pas, ou ne s’affiche pas correctement sur un terminal ou navigateur particulier, le résultat de votre test A/B ne sera pas représentatif. Sans mentionner les dégâts sur l’expérience utilisateur… N’oublions pas que 80% des internautes ont un smartphone. Il faut être prudent si un test va plus loin qu’un simple changement de couleur si vous utilisez l’éditeur visuel d’un outil.

Vérifiez bien que votre test fonctionne sur tous les navigateurs et terminaux. Un outil de Google Chrome permet de le faire (vous pouvez aussi le faire via un bon outil de test A/B (s’il le permet, comme le notre).
N’utilisez pas de code CSS ou Ajax spécifique à un navigateur.
Faites attention au CSS trop récent (vérifiez les navigateurs utilisés par votre audience via votre outil d’analytics).

Et voilà, c’est tout pour aujourd’hui. L’interprétation des tests A/B sera mise à rude épreuve dans notre prochain article. PS : Si vous avez manqué les autres article de cette série spécifique aux erreurs commises en A/B testing :

Vous souhaitez vous lancer dans le testing ? Téléchargez le livre blanc de l'A/B testing dès maintenant !