Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

cr  01.04.2012      r+  22.10.2024      r-  22.10.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

« Mascarade », appelé Cloaking en anglais, est une forme de Spamdexing qui consiste à montrer aux moteurs de recherche un contenu d'une page optimisée pour son indexation (SEO - Search Engine Optimisation), tandis que la page réelle, que verront les internautes, sera différente. Les moteurs de recherche s'en aperçoivent et déréférence les sites pratiquant la Mascarade.

Cette technique de spamdexing n'est pas à la portée de tout le monde. Elle nécessite de savoir écrire des sites Internet utilisant des langages côté serveurs (PHP, ASP, CGI, SSI...). Lorsque le serveur sur lequel est hébergé un site reçoit une requête, il sait qui fait cette requête car la requête se présente sous la forme suivante :

GET: /index.html
HOST: assiste.com.free.fr
USER_AGENT=Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
REFERER=http://assiste.forum.free.fr
REMOTE_ADDR=195.13.17.178

GET contient le nom de la page web que vous voulez voir (ici index.html)
HOST est le nom du site sur lequel se trouve la page recherchée (ici assiste.com.free.fr)
USER_AGENT est la "signature" de votre navigateur (ici Internet Explorer version 6.0 utilisé sous windows 2000 Pro)
REFERER est le site d'où vous venez (ici assiste.forum.free.fr)
REMOTE_ADDR est votre adresse IP
Le cloaking consiste à analyser la signature du navigateur. Celle-ci peut être masquée ou usurpée mais les moteurs de recherche ne jouent pas à cela et signent légitimement leurs robots (crawler, spider) utilisés pour indexer les sites. Donc il est possible de savoir si le visiteur est un robot d'un moteur de recherche, par exemple lorsque le User-Agent est dans cette liste :

En utilisant un langage côté serveur, le webmaster écrit une fonction simple qui fera ceci :

Si le visiteur est un robot d'indexation
génération pour le robot d'une page spécifique optimisée (courte, beaucoup de mots clé etc. ...)
sinon,
génération de la page normale à présenter au visiteur "normal".

Avec cette technique, il est possible d'optimiser le poids des mots-clés dans la page (% de mots-clés par rapport au nombre total de mots de la page) mais il est aussi possible de complètement tromper les robots et de leur faire croire que le site est un site de recettes de cuisines alors que le visiteur verra des pages sur le viagra ou pornographiques etc. ...

Lorsque le cloaking est découvert (dénonciation, robots utilisant un User-Agent le faisant passer pour un navigateur normal et comparaison du résultat obtenu avec le résultat obtenu par le robot signé), le site est blacklisté et il mettra des mois à en sortir, voire ne sera plus jamais indexé.

Une utilisation légitime et non perverse du cloaking consiste à analyser l'adresse IP et, en fonction de sa provenance géographique (pays d'origine) :

  • afficher la page dans une langue ou dans une autre
  • utiliser un serveur plus proche, géographiquement, du visiteur, afin d'améliorer la vitesse
  • délivrer des publicités locales
  • Etc. ...

Un outil comme User Agent Switcher (une extension pour le navigateur Firefox) permet de voir si un site joue à cela.