Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

cr  01.04.2012      r+  22.10.2024      r-  22.10.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

robots.txt est un fichier, au simple format texte, que dépose un webmaster à la racine de son site Web pour ordonner certains comportements, donner des instructions aux robots qui visitent son site.

robots.txt est un fichier, mais est aussi un protocole de communication avec les robots (spiders, crawlers, etc.). Il est donc constitué d'un langage (des verbes) et accepte des arguments.

Il faut garder en mémoire deux considérations importantes à propos des fichiers robots.txt

  1. Les robots peuvent se fichent complètement de votre robots.txt, car robots.txt n'est pas contraignant.
    1. Les robots développés par les cybercriminels se moquent complètement des fichiers robots.txt, en particulier pour chercher des failles de sécurité dans les technologies employées sur le serveur du site.
    2. Les robots développés par les spammeurs se moquent complètement des fichiers robots.txt, en particulier pour chercher dans les pages du site ou dans les contributions des visiteurs sur les blogs/forums/etc., des adresses e-mail à recopier. On appelle ces robots qui moissonnent les adresses e-mail des Harvester.
  2. Ne cherchez pas à cacher quelque chose avec robots.txt, ce fichier étant librement consultable par tous. Vous indiqueriez ainsi où se trouve quelque chose d'interdit, donc d'intéressant.

Il faut, bien entendu, connaître les noms (user agent) des robots (enfin... les noms sous lesquels ils se présentent, s'il n'y a pas d'usurpation).

Ces sites recenseraient tous les user agent

Autres ressources :

Nota : les "agent user" sont partout et votre navigateur en a un, également, qu'il envoie aux serveurs des sites que vous visitez. Cela ajouté à d'autres informations (traces externes) permet de calculer un GUID (ou une empreinte - c'est le fingerprinting). Vous pouvez tromper ceux qui vous traquent en utilisant un switcher (spoofer) d'user agent comme Random Agent Spoofer.

En voici quelques-uns parmi des milliers :

Agent
(propriétaire/utilisateur)
Chaîne User agent
Alexaia_archiver
Ask Jeeves/TeomaMozilla/2.0 (compatible; Ask Jeeves/Teoma)
Baidu SpiderBaiduspider ( https://www.baidu.com/search/spider.htm)
cURL on Mac OS X / Darwin PPC (public)curl/7.13.1 (powerpc-apple-darwin8.0) libcurl/7.13.1 OpenSSL/0.9.7b zlib/1.2.2
Exabot
(Exalead)
Mozilla/5.0 (compatible; Exabot/3.0; +https://www.exabot.com/go/robot)
Exabot-NG
(Exalead)
NG/4.5.5082.67
Exabot-Thumbnails
(Exalead)
Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
GameSpy HTTP (GameSpy)GameSpyHTTP/1.0
Gigabot
(Gigablast)
Gigabot/2.0
Googlebot
(Google)
Googlebot/2.1 (+https://www.google.com/bot.html)
Googlebot alternateMozilla/5.0 (compatible; googlebot/2.1; +https://www.google.com/bot.html)
Googlebot-Image
(Google)
Googlebot-Image/1.0
Grub
(usage: public)
(propriétaire: LookSmart)
Mozilla/4.0 (compatible; grub-client-1.4.3; Crawl your own stuff with https://grub.org) Mozilla/4.0 (compatible; grub-client-2.3)
Inktomi SlurpMozilla/3.0 (Slurp/si; slurp@inktomi.com; https://www.inktomi.com/slurp.html)
msnbot
(Microsoft MSN Search)
msnbot/1.0 (+https://search.msn.com/msnbot.htm)
Scooter (AltaVista)Scooter-3.2.EX
wget
(public)
Wget/1.9
W3C validatorW3C_Validator/1.654
Yahoo! Slurp
(Yahoo! Search)
Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)

Exemples :

Autoriser tous les robots à accéder au site sur son serveur :

User-agent: *
Disallow:

Interdire l'accès au site à tous les robots :

User-agent: *
Disallow: /

Interdire à tous les robots, sauf un, l'accès à un dossier en particulier

Par exemple, interdire à tous les robots, sauf celui de Google (qui s'appelle googlebot), l'accès à https://assiste.com/composants/.

User-agent: *
Disallow: /Composants/

User-agent: googlebot
Disallow:

Indiquer où se trouve une ressource connue par son nom symbolique. Par exemple la ressource « sitemap ».

Sitemap: https://assiste.com/sitemap.xml

Lever une ambiguïté. Par exemple, assiste.com a deux noms de domaine dans les DNS : assiste.com et www.assiste.com

Les moteurs de recherche peuvent être troublés par l'existence de deux contenus totalement identiques, par exemple l'un sur assiste.com et l'autre sur www.assiste.com.

Historiquement, tous les noms de domaine commençaient par www, mais ceci n'existe plus et www n'est plus qu'un sous domaine du domaine, comme pourrait l'être forum.assiste.com ou blog.assiste.com ou wiki.assiste.com, etc. Si un moteur de recherche trouve la même chose sur assiste.com et sur www.assiste.com, il est amené, naturellement et très normalement, à penser que www.assiste.com est une copie, un miroir d'assiste.com. Ceci est considéré comme du spamdexing, du « duplicate content » (contenu dupliqué), et le site est rétrogradé dans son classement. Il faut dire, explicitement, lequel des deux est le bon.

Host: assiste.com

Interdire tous les aspirateurs (connus) de sites


User-agent: ia_archiver
Disallow: /

User-agent: BotRightHere
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gatherer
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: wget
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: WebZIP/4.21
Disallow: /

User-agent: WebZIP/5.0
Disallow: /

User-agent: HTTrack 3.0
Disallow: /

User-agent: TurnitinBot/1.5
Disallow: /

User-agent: WebCopier v3.2a
Disallow: /

User-agent: WebCapture 2.0
Disallow: /

User-agent: WebCopier v.2.2
Disallow: /