Crawler : outil utilisé par les moteurs de recherche pour découvrit les pages Web, puis les spiders construisent la toile (les liens/relations/indexes).
Sommaire (montrer / masquer)
|
---|
|
L'indexation du Web, par les moteurs de recherche, se fait avec deux outils :
- Les " Crawlers ", qui balayent sans cesse le Web, suivent tous les liens (ou sont aidés par des fichiers « SiteMap » ou des « Flux RSS » maintenus par les Webmasters), et font remonter tout sur les serveurs du moteur de recherche.
- Les " Spiders ", qui tissent les liens de la toile à partir du " vrac " remonté par les Crawlers. Lorsqu'une page est remontée par le " crawler " , le " Spider " l'analyse, extrait tous les liens, regarde quels sont ceux déjà dans la base de connaissances du moteur et l'âge de ces pages, et injecte dans la file d'attente des liens à suivre par le " crawler ", ceux " intéressants " (ceux à suivre).
Les technologies de chaque grand moteur de recherche (Google, Bing, Yandex, Baidu, Qwant, etc. ...) sont des secrets totalement protégés, même au sein des entreprises où ils sont développés (le travail est fractionné, etc. ...).
Ainsi, on utilise indifféremment les termes de Crawlers et de Spiders, ne sachant pas très bien qui fait quoi.
Terminologies rencontrées :
- Crawler le Web
- Web crawling
- Pratiquer le Crawling
- Spider le Web
- Faire du spidering
- Web spidering
- Robots d'indéxation
- Web Bot
- Internet Bot
- Web Indexing
Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.
|
Crawler, moteurs de recherche, indexation, référencement, Crawler le Web, Web crawling, Pratiquer le Crawling, Spider le Web, Faire du spidering, Web spidering, Robots d'indéxation, Web Bot, Internet Bot, Web Indexing