De quoi s’agit-il ?
Début novembre 2010, Google a enrichi son moteur de recherche d’une nouvelle fonctionnalité (Google Instant Preview ou GIP) qui propose l’affichage d’aperçus des pages cibles pour chaque ligne de résultat.
De nombreux utilisateurs ont rapidement remonté des effets de bord, a priori mal appréciés par la firme de Mountain View. Parmi ceux-ci, on trouve principalement une augmentation du trafic mais aussi de la bande passante consommée.
Comment cela fonctionne t-il ?
Lorsque nous effectuons une recherche via Google, ce dernier va scanner (via des appels ajax concurrents) les 10 pages cibles de la page de résultats pour générer une image d’aperçu. En réalité, ceci n’est pas tout à fait vrai car GIP utilise un système de cache et de ce fait stocke les fameuses pages résultats. De cette façon, il est capable de scanner le contenu de la page a posteriori pour surligner les mots-clés indiqués dans la recherche (cf. screenshot précédent).
Certains éditeurs (comme Websense, voir ici) se sont également plaints du fait de la non actualisation systématique des images et des risques liés à l’utilisation de techniques de cloacking notamment.
Et mes pages vues dans tout ça ?
Lorsque le robot de Google (Google Web Preview) scanne une page pour en générer l’aperçu, il la parcourt tel un véritable navigateur et de ce fait exécute les scripts qui s’y trouvent. Aujourd’hui toutes les solutions de web analytics sont à base de javascript et se retrouvent donc impactées par cette nouvelle fonctionnalité. Peut-on prendre en compte les pages vues et visites générées par le Googlebot comme réelles ? Si l’on peut penser que visualiser un aperçu revient à afficher et lire une page, alors la réponse est oui mais objectivement, cela m’étonnerait que les annonceurs l’entendent de cette oreille ! De plus, la page vue est comptée dès lors que la page en question a été scannée, or rien ne dit que l’utilisateur a réellement affiché l’image. Etant donné que Google lance des appels ajax simultanés pour générer les vignettes, il n’y a aucun moyen de contrôle.
Ci dessous, les appels ajax pour générer les aperçus affichés dans firebug :
Concrêtement…
De notre côté, en tant qu’éditeur de solution web analytics (SmartProfile), nous avons mis en place un filtre afin de ne pas interférer les données réelles de nos clients avec celles générées par Google et ses aperçus instantanés.
De son côté, Google a livré un correctif le 22 novembre dernier dans Google Analytics afin de supprimer le trafic en provenance de son bot de génération d’aperçus et suggère aux autres outils de se baser sur le user agent de son bot (Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Web Preview) Version/3.1 Safari/525.13) pour en exclure le trafic et de se référer à leur FAQ.
Adobe explique qu’ils n’envisagent pas de modifier leur outil Omniture SiteCatalyst à court terme car pour eux cela représente moins de 1% d’augmentation du trafic. En attendant, cela contribue à fausser les données et surtout cela témoigne de la grande diversité de traitement des différents outils devant le même phénomène.
En tant que membre de l’OJD, nous leur avons remonté l’information et attendons leur recommandation sur ce sujet. Nous n’oublierons pas de vous tenir informés !