Flux RSS - La vie du site - Nouveautés et mises à jour
Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Crawler (Indexation du Web par les moteurs de recherche)

Crawler - Outil utilisé par les moteurs de recherche pour indexer les pages du Web. Les crawler découvrent les nouvelles pages, les remontent, puis les spiders construisent les liens/relations/indexes

L'indexation du Web, par les moteurs de recherche, se fait avec deux outils :

  • Les " Crawlers ", qui balayent sans cesse le Web, suivent tous les liens (ou sont aidés par des fichiers « SiteMap » ou des « Flux RSS » maintenus par les Webmasters), et font remonter tout sur les serveurs du moteur de recherche.
  • Les " Spiders ", qui tissent les liens de la toile à partir du " vrac " remonté par les Crawlers. Lorsqu'une page est remontée par le " crawler " , le " Spider " l'analyse, extrait tous les liens, regarde quels sont ceux déjà dans la base de connaissances du moteur et l'âge de ces pages, et injecte dans la file d'attente des liens à suivre par le " crawler ", ceux " intéressants " (ceux à suivre).

Les technologies de chaque grand moteur de recherche (Google, Bing, Yandex, Baidu, Qwant, etc. ...) sont des secrets totalement protégés, même au sein des entreprises où ils sont développés (le travail est fractionné, etc. ...).

Ainsi, on utilise indifféremment les termes de Crawlers et de Spiders, ne sachant pas très bien qui fait quoi.

Terminologies rencontrées :

  • Crawler le Web
  • Web crawling
  • Pratiquer le Crawling
  • Spider le Web
  • Faire du spidering
  • Web spidering
  • Robots d'indéxation
  • Web Bot
  • Internet Bot
  • Web Indexing
Crawler -
Crawler - Crawler (Indexation du Web)