Alertes de sécurité en cours Discussion Discussion
Faire un lien Lien
Assiste.com - Sécurité informatique - Décontamination - Antivirus - Protection - Protection de la Vie Privée Assiste.com - Sécurité informatique - Décontamination - Antivirus - Protection - Protection de la Vie Privée


Spider (Indexation du Web)

Dernière mise à jour : 2016-12-03T00:00 - 03.12.2016 - 00h00
29.09.2014 - 00h00 - Paris - (Assiste - Pierre Pinard) - Mise à jour

Spider (Indexation du Web) - partie des mécanismes d'indéxation du Web, l'autre partie étant les crawlers.

Spider (Indexation du Web)

Spider (Indexation du Web)Spider (Indexation du Web)Spider (Indexation du Web)

L'indexation du Web, par les moteurs de recherche, se fait avec deux outils :

  • Les " crawlers ", qui balayent sans cesse le Web, suivent tous les liens (ou sont aidés par des " SiteMap " dressés par les Webmasters), et font remonter tout sur les serveurs du moteur de recherche.
  • Les " Spiders ", qui tissent les liens de la toile à partir du " vrac " remonté par les crawlers. Lorsqu'une page est remontée par le " crawler " , le " Spiders " l'analyse, extrait tous les liens, regarde quels sont ceux déjà dans la base de connaissances du moteur et l'âge de ces pages, et injecte dans la file d'attente des liens à suivre par le " crawler ", ceux " intéressants " (ceux à suivre).

Les technologies de chaque grand moteur de recherche (Google, Bing, etc. ...) sont des secrets totalement protégés, même au sein des entreprises où ils sont développés (le travail est fractionné, etc. ...).

Ainsi, on utilise indifféremment les termes de Crawlers et de Spiders, ne sachant pas très bien qui fait quoi.

Terminologie :
Crawler le Web
Web crawling
Pratiquer le Crawling
Spider le Web
Faire du spidering
Web spidering
Robots d'indéxation
Web Bot
Internet Bot
Web Indexing