robots.txt

Alertes failles
de sécurité et
de mises à jour

Contribuer - Questionner
Faire un lien

Assiste.com

robots.txt : fichier déposé à la racine d'un site Web et donnant des ordres et directives aux robots d'indexation des moteurs de recherche qui visitent ce site.

cr 01.04.2012 r+ 17.01.2025 r- 17.01.2025 Pierre Pinard. (Alertes et avis de sécurité au jour le jour)

Dossier : Encyclopédie
Introduction Liste Malwarebytes et Kaspersky ou Emsisoft (incluant Bitdefender)

Sommaire (montrer / masquer)
01 robots.txt Autour de ce sujet FAQ

robots.txt

robots.txt est un fichier, au simple format texte, que dépose un webmaster à la racine de son site Web pour ordonner certains comportements, donner des instructions aux robots qui visitent son site.

robots.txt est un fichier, mais est aussi un protocole de communication avec les robots (spiders, crawlers, etc.). Il est donc constitué d'un langage (des verbes) et accepte des arguments.

Il faut garder en mémoire deux considérations importantes à propos des fichiers robots.txt

Les robots peuvent se fichent complètement de votre robots.txt, car robots.txt n'est pas contraignant.
1. Les robots développés par les cybercriminels se moquent complètement des fichiers robots.txt, en particulier pour chercher des failles de sécurité dans les technologies employées sur le serveur du site.
2. Les robots développés par les spammeurs se moquent complètement des fichiers robots.txt, en particulier pour chercher dans les pages du site ou dans les contributions des visiteurs sur les blogs/forums/etc., des adresses e-mail à recopier. On appelle ces robots qui moissonnent les adresses e-mail des Harvester.
Ne cherchez pas à cacher quelque chose avec robots.txt, ce fichier étant librement consultable par tous. Vous indiqueriez ainsi où se trouve quelque chose d'interdit, donc d'intéressant.

Il faut, bien entendu, connaître les noms (user agent) des robots (enfin... les noms sous lesquels ils se présentent, s'il n'y a pas d'usurpation).

Ces sites recenseraient tous les user agent

https://www.useragentstring.com/

Autres ressources :

Nota : les "agent user" sont partout et votre navigateur en a un, également, qu'il envoie aux serveurs des sites que vous visitez. Cela ajouté à d'autres informations (traces externes) permet de calculer un GUID (ou une empreinte - c'est le fingerprinting). Vous pouvez tromper ceux qui vous traquent en utilisant un switcher (spoofer) d'user agent comme Random Agent Spoofer.

En voici quelques-uns parmi des milliers :

Agent (propriétaire/utilisateur)	Chaîne User agent
Alexa	`ia_archiver`
Ask Jeeves/Teoma	`Mozilla/2.0 (compatible; Ask Jeeves/Teoma)`
Baidu Spider	`Baiduspider ( https://www.baidu.com/search/spider.htm)`
cURL on Mac OS X / Darwin PPC (public)	`curl/7.13.1 (powerpc-apple-darwin8.0) libcurl/7.13.1 OpenSSL/0.9.7b zlib/1.2.2`
Exabot (Exalead)	`Mozilla/5.0 (compatible; Exabot/3.0; +https://www.exabot.com/go/robot)`
Exabot-NG (Exalead)	`NG/4.5.5082.67`
Exabot-Thumbnails (Exalead)	`Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)`
GameSpy HTTP (GameSpy)	`GameSpyHTTP/1.0`
Gigabot (Gigablast)	`Gigabot/2.0`
Googlebot (Google)	`Googlebot/2.1 (+https://www.google.com/bot.html)`
Googlebot alternate	`Mozilla/5.0 (compatible; googlebot/2.1; +https://www.google.com/bot.html)`
Googlebot-Image (Google)	`Googlebot-Image/1.0`
Grub (usage: public) (propriétaire: LookSmart)	`Mozilla/4.0 (compatible; grub-client-1.4.3; Crawl your own stuff with https://grub.org) Mozilla/4.0 (compatible; grub-client-2.3)`
Inktomi Slurp	`Mozilla/3.0 (Slurp/si; slurp@inktomi.com; https://www.inktomi.com/slurp.html)`
msnbot (Microsoft MSN Search)	`msnbot/1.0 (+https://search.msn.com/msnbot.htm)`
Scooter (AltaVista)	`Scooter-3.2.EX`
wget (public)	`Wget/1.9`
W3C validator	`W3C_Validator/1.654`
Yahoo! Slurp (Yahoo! Search)	`Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)`

Exemples :

Autoriser tous les robots à accéder au site sur son serveur :

User-agent: *
Disallow:

Interdire l'accès au site à tous les robots :

User-agent: *
Disallow: /

Interdire à tous les robots, sauf un, l'accès à un dossier en particulier

Par exemple, interdire à tous les robots, sauf celui de Google (qui s'appelle googlebot), l'accès à https://assiste.com/composants/.

User-agent: *
Disallow: /Composants/

User-agent: googlebot
Disallow:

Indiquer où se trouve une ressource connue par son nom symbolique. Par exemple la ressource « sitemap ».

Sitemap: https://assiste.com/sitemap.xml

Lever une ambiguïté. Par exemple, assiste.com a deux noms de domaine dans les DNS : assiste.com et www.assiste.com

Les moteurs de recherche peuvent être troublés par l'existence de deux contenus totalement identiques, par exemple l'un sur assiste.com et l'autre sur www.assiste.com.

Historiquement, tous les noms de domaine commençaient par www, mais ceci n'existe plus et www n'est plus qu'un sous domaine du domaine, comme pourrait l'être forum.assiste.com ou blog.assiste.com ou wiki.assiste.com, etc. Si un moteur de recherche trouve la même chose sur assiste.com et sur www.assiste.com, il est amené, naturellement et très normalement, à penser que www.assiste.com est une copie, un miroir d'assiste.com. Ceci est considéré comme du spamdexing, du « duplicate content » (contenu dupliqué), et le site est rétrogradé dans son classement. Il faut dire, explicitement, lequel des deux est le bon.

Host: assiste.com

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Références internes

robots.txt

Autour de ce sujet

Les encyclopédies
Encyclopédie des termes et concepts informatique et Internet Liste Encyclopédie des acronymes, sigles et abréviations Liste Encyclopédie de la terminologie officielle française Liste Encyclopédie de la terminologie Warez, DDL et P2P Liste

robots.txt : fichier déposé à la racine d'un site Web et donnant des ordres et directives aux robots d'indexation des moteurs de recherche qui visitent ce site.

robots.txt

Autoriser tous les robots à accéder au site sur son serveur :

Interdire l'accès au site à tous les robots :

Interdire à tous les robots, sauf un, l'accès à un dossier en particulier

Indiquer où se trouve une ressource connue par son nom symbolique. Par exemple la ressource « sitemap ».

Lever une ambiguïté. Par exemple, assiste.com a deux noms de domaine dans les DNS : assiste.com et www.assiste.com

Interdire tous les aspirateurs (connus) de sites

Références internes

Autour de ce sujet

Droits d'auteur attachés à cet article

Lien (copier le lien vers cette page dans votre presse-papier)