Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

cr  01.04.2012      r+  22.10.2024      r-  22.10.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

L'indexation du Web, par les moteurs de recherche, se fait avec deux outils :

  • Les " Crawlers ", qui balayent sans cesse le Web, suivent tous les liens (ou sont aidés par des fichiers « SiteMap » ou des « Flux RSS » maintenus par les Webmasters), et font remonter tout sur les serveurs du moteur de recherche.
  • Les " Spiders ", qui tissent les liens de la toile à partir du " vrac " remonté par les Crawlers. Lorsqu'une page est remontée par le " crawler " , le " Spider " l'analyse, extrait tous les liens, regarde quels sont ceux déjà dans la base de connaissances du moteur et l'âge de ces pages, et injecte dans la file d'attente des liens à suivre par le " crawler ", ceux " intéressants " (ceux à suivre).

Les technologies de chaque grand moteur de recherche (Google, Bing, Yandex, Baidu, Qwant, etc. ...) sont des secrets totalement protégés, même au sein des entreprises où ils sont développés (le travail est fractionné, etc. ...).

Ainsi, on utilise indifféremment les termes de Crawlers et de Spiders, ne sachant pas très bien qui fait quoi.

Terminologies rencontrées :

  • Crawler le Web
  • Web crawling
  • Pratiquer le Crawling
  • Spider le Web
  • Faire du spidering
  • Web spidering
  • Robots d'indéxation
  • Web Bot
  • Internet Bot
  • Web Indexing



  • Crawler (Indexation du Web par les moteurs de recherche)