Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Web indexé

Web indexé - Le Web est juste l'une des utilisations de l'Internet. La partie « naturellement » visible du Web, le Web surfacique, en est juste une infime partie. Tout le reste constitue le Deep Web dont une petite partie est le Dark Web.

cr  01.04.2012      r+  21.08.2020      r-  20.04.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

Le Web n'est qu'une partie de l'Internet, une forme d'utilisation de l'Internet. Mais le Web en lui-même est constitué d'une partie visible et d'autres parties invisibles dont pour des raisons d'illégalité.




La partie du Web que tout un chacun utilise chaque jour correspond à ce qui est indexé par les moteurs de recherche grâce à leurs « spiders » et « crawlers » et peut être vu (sur lequel on peut naviguer) avec un navigateur Web classique. Cela peut être considéré comme la partie visible d'un iceberg. On parle, d'ailleurs, de Web surfacique.

]




Tout ce qui existe dans/sur le Web, mais n'est pas indexé par les moteurs de recherche ni accessible « naturellement » par les navigateurs Web classiques constitue le Deep Web et peut être considéré comme la partie invisible de l'iceberg. Pour y accéder, vous devez utiliser des logiciels spécifiques (navigateurs TorBrowser), des protocoles de communication spécifiques (Tor - The onion router) avec socks qui se superposent au fonctionnement public/normal du Web), et des ports de communication spécifiques (9050 par défaut). Parfois, vous devez être coopté pour vous voir invité et bénéficier d'un identifiant. Il y a là, également, tous les sites auxquels l'accès ne peut se faire que par identification (identifiant et mot de passe) et auxquels les moteurs de recherche ne peuvent donc accéder :

  • Des sites normaux, mais dont les webmasters ont indiqué aux moteurs de recherche de ne pas les indexer (sites normaux, mais confidentiels/privés, entre amis…)
  • P2P privé (sites de piratage sur invitation, par exemple)
  • Communications anonymes et non P2P (Réseau Tor (The onion router), par exemple, etc.)
  • Fonctionnement de services (les BlockChain, par exemple)
  • L'accessibilité bloquée dans les pays censurés (contre la censure des dictatures, Facebook représenterait à lui seul la moitié du trafic du Deep Web)
  • Toute la documentation scientifique, dont les bibliothèques documentaires de toutes les universités
  • Les pages Web générées dynamiquement comme, par exemple, toutes les pages que vous obtenez après avoir répondu à des questions (billet d'avion, de train, de bus, Airbnb, etc.). Ces sites n'ont rien à cacher, au contraire, mais une partie de leurs pages n'existe pas de manière statique.
  • Les pages Web générées automatiquement par les moteurs de recherche pour répondre à vos questions. Aucune n'existe réellement et ne peut donc être indexée, pourtant il y en a des milliards par jour. Elles ne sont pas dans le Deep Web, mais le trafic qu'elles génèrent existe et est considérable.
  • La totalité des pages Web concernant les comptes clients de services en ligne, comme les banques, les assurances, les dossiers médicaux partagés (DMP), les échanges diplomatiques, les travaux de recherches de journalistes d'investigation, les dossiers d'avocats, d'huissiers, etc.
  • Les Boardz
  • Les contenus de vos boîtes de courriel
  • Tous les contenus derrière un accès payant (Netflix, par exemple)
  • Etc.

Dans les faits, le Web profondDeep Web » ou « Web caché ») représenterait 90% à 98% des données sur le Web, tandis que le Web surfacique n'en représenterait que 2% à 10%.

L'un des moyens le plus simples d'interdire aux moteurs l'indexation d'une page ou d'un site est l'utilisation, dans l'entête (header) des pages Web, de la clause :
<META NAME="robots" CONTENT="noindex,nofollow">
Cette clause interdit aux « spiders » et « crawlers » des moteurs de recherche d'indexer ces pages et de suivre les liens. Ces sites, s'ils sont découverts, ne seront pas indexés - ils feront donc partie du Deep Web. Mais, ne pas se leurrer : ces pages et sites sont tout de même visités par des officines gouvernementales ou plus ou moins obscures, comme la NSA, la CIA ou le FBI, et les mêmes types d'agences dans tous les pays du monde) - ce n'est pas cette clause qui va les arrêter/empêcher, au contraire, cela va exciter leur curiosité).

]




Le Dark Web est cette partie du Deep Web qui se cache, car tout ce qui s'y passe est illicite, comme le très médiatisé (au moment de sa fermeture par le FBI) site Silk Road (Route de la soie) qui permettait l'anonymat total (utilisation de Tor) des vendeurs et des acheteurs de stupéfiants, armes, faux papiers, piratages de comptes (Facebook, Twitter, etc.), contrats d'exécutions (tueurs à gages), etc. Silk Road prélevait 10 à 15 % du montant des transactions. Sur le Dark Web on trouve, au moins :

  • Jeux d'argent
  • Armes à feu
  • Maltraitance
  • Pédopornographie
  • Lanceur d'alertes
  • Bitcoin et autres crypto-monnaies
  • Médicaments/drogues/stupéfiants
  • Faux billets
  • Faux papiers
  • Commerce de données privées (numéros de cartes bancaires, base de données piratées, etc.)
  • Commerce de malveillances entre cybercriminels (Achat / Vente d'exploits et failles 0day, etc.)
  • Etc.




Les chiffres et proportions donnés dans cet article sont cités assez constamment (en 2019), à droite et à gauche, mais aucune mesure statistique faisant autorité / référence n'a été trouvée sauf une vieille étude de juillet 2001 réalisée par l'entreprise BrightPlanet (1). BrightPlanet estimait que le Web profond pouvait contenir de 400 à 550 fois plus de ressources que le Web surfacique (Web indexé par les moteurs de recherche). Ces ressources, en plus d'être beaucoup plus volumineuses que celles du Web surfacique, sont souvent de très bonne qualité.