Web indexé

Alertes failles
de sécurité et
de mises à jour

Contribuer - Questionner
Faire un lien

Web indexé - Le Web est juste l'une des utilisations de l'Internet. La partie « naturellement » visible du Web, le Web surfacique, en est juste une infime partie. Tout le reste constitue le Deep Web dont une petite partie est le Dark Web.

cr 01.04.2012 r+ 22.10.2024 r- 22.10.2024 Pierre Pinard. (Alertes et avis de sécurité au jour le jour)

Dossier : Encyclopédie
Introduction Liste Malwarebytes et Kaspersky ou Emsisoft (incluant Bitdefender)

Sommaire (montrer / masquer)
01 Web indexé 02 Web surfacique 03 Deep Web (Web profond ou Web caché) 04 Dark Web 05 Taille du Deep Web Autour de ce sujet FAQ

Web indexé

Le Web n'est qu'une partie de l'Internet, une forme d'utilisation de l'Internet. Mais le Web en lui-même est constitué d'une partie visible et d'autres parties invisibles dont pour des raisons d'illégalité.

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Web surfacique

La partie du Web que tout un chacun utilise chaque jour correspond à ce qui est indexé par les moteurs de recherche grâce à leurs « spiders » et « crawlers » et peut être vu (sur lequel on peut naviguer) avec un navigateur Web classique. Cela peut être considéré comme la partie visible d'un iceberg. On parle, d'ailleurs, de Web surfacique.

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Deep Web (Web profond ou Web caché)

Tout ce qui existe dans/sur le Web, mais n'est pas indexé par les moteurs de recherche ni accessible « naturellement » par les navigateurs Web classiques constitue le Deep Web et peut être considéré comme la partie invisible de l'iceberg. Pour y accéder, vous devez utiliser des logiciels spécifiques (navigateurs TorBrowser), des protocoles de communication spécifiques (Tor - The onion router) avec socks qui se superposent au fonctionnement public/normal du Web), et des ports de communication spécifiques (9050 par défaut). Parfois, vous devez être coopté pour vous voir invité et bénéficier d'un identifiant. Il y a là, également, tous les sites auxquels l'accès ne peut se faire que par identification (identifiant et mot de passe) et auxquels les moteurs de recherche ne peuvent donc accéder :

Des sites normaux, mais dont les webmasters ont indiqué aux moteurs de recherche de ne pas les indexer (sites normaux, mais confidentiels/privés, entre amis…)
P2P privé (sites de piratage sur invitation, par exemple)
Communications anonymes et non P2P (Réseau Tor (The onion router), par exemple, etc.)
Fonctionnement de services (les BlockChain, par exemple)
L'accessibilité bloquée dans les pays censurés (contre la censure des dictatures, Facebook représenterait à lui seul la moitié du trafic du Deep Web)
Toute la documentation scientifique, dont les bibliothèques documentaires de toutes les universités
Les pages Web générées dynamiquement comme, par exemple, toutes les pages que vous obtenez après avoir répondu à des questions (billet d'avion, de train, de bus, Airbnb, etc.). Ces sites n'ont rien à cacher, au contraire, mais une partie de leurs pages n'existe pas de manière statique.
Les pages Web générées automatiquement par les moteurs de recherche pour répondre à vos questions. Aucune n'existe réellement et ne peut donc être indexée, pourtant il y en a des milliards par jour. Elles ne sont pas dans le Deep Web, mais le trafic qu'elles génèrent existe et est considérable.
La totalité des pages Web concernant les comptes clients de services en ligne, comme les banques, les assurances, les dossiers médicaux partagés (DMP), les échanges diplomatiques, les travaux de recherches de journalistes d'investigation, les dossiers d'avocats, d'huissiers, etc.
Les Boardz
Les contenus de vos boîtes de courriel
Tous les contenus derrière un accès payant (Netflix, par exemple)
Etc.

Dans les faits, le Web profond (« Deep Web » ou « Web caché ») représenterait 90% à 98% des données sur le Web, tandis que le Web surfacique n'en représenterait que 2% à 10%.

L'un des moyens le plus simples d'interdire aux moteurs l'indexation d'une page ou d'un site est l'utilisation, dans l'entête (header) des pages Web, de la clause :
<META NAME="robots" CONTENT="noindex,nofollow">
Cette clause interdit aux « spiders » et « crawlers » des moteurs de recherche d'indexer ces pages et de suivre les liens. Ces sites, s'ils sont découverts, ne seront pas indexés - ils feront donc partie du Deep Web. Mais, ne pas se leurrer : ces pages et sites sont tout de même visités par des officines gouvernementales ou plus ou moins obscures, comme la NSA, la CIA ou le FBI, et les mêmes types d'agences dans tous les pays du monde) - ce n'est pas cette clause qui va les arrêter/empêcher, au contraire, cela va exciter leur curiosité).

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Dark Web

Le Dark Web est cette partie du Deep Web qui se cache, car tout ce qui s'y passe est illicite, comme le très médiatisé (au moment de sa fermeture par le FBI) site Silk Road (Route de la soie) qui permettait l'anonymat total (utilisation de Tor) des vendeurs et des acheteurs de stupéfiants, armes, faux papiers, piratages de comptes (Facebook, Twitter, etc.), contrats d'exécutions (tueurs à gages), etc. Silk Road prélevait 10 à 15 % du montant des transactions. Sur le Dark Web on trouve, au moins :

Jeux d'argent
Armes à feu
Maltraitance
Pédopornographie
Lanceur d'alertes
Bitcoin et autres crypto-monnaies
Médicaments/drogues/stupéfiants
Faux billets
Faux papiers
Commerce de données privées (numéros de cartes bancaires, base de données piratées, etc.)
Commerce de malveillances entre cybercriminels (Achat / Vente d'exploits et failles 0day, etc.)
Etc.

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Taille du Deep Web

Les chiffres et proportions donnés dans cet article sont cités assez constamment (en 2019), à droite et à gauche, mais aucune mesure statistique faisant autorité / référence n'a été trouvée sauf une vieille étude de juillet 2001 réalisée par l'entreprise BrightPlanet (¹). BrightPlanet estimait que le Web profond pouvait contenir de 400 à 550 fois plus de ressources que le Web surfacique (Web indexé par les moteurs de recherche). Ces ressources, en plus d'être beaucoup plus volumineuses que celles du Web surfacique, sont souvent de très bonne qualité.

Aidez et soutenez Assiste – autorisez quelques publicités et cliquez dessus.

Références internes

Web indexé

Autour de ce sujet

Les encyclopédies
Encyclopédie des termes et concepts informatique et Internet Liste Encyclopédie des acronymes, sigles et abréviations Liste Encyclopédie de la terminologie officielle française Liste Encyclopédie de la terminologie Warez, DDL et P2P Liste

Article rédigé en écoutant...