Le Deep Web – le côté invisible d’Internet

Si vous voulez trouver quelque chose sur Internet, vous le cherchez généralement sur Google. Mais il existe des sites Web que même le moteur de recherche populaire ne peut pas trouver. Parce qu’ils sont dans le soi-disant web profond.

L’Internet est mieux comparé à notre univers. Alors que l’univers s’agrandit, la quantité de contenu sur Internet augmente chaque jour. Autre chose qu’ils ont en commun : nous ne connaissons qu’une infime partie de l’immensité de l’espace. Cela s’applique également à Internet, qui se compose de deux parties, la partie visible et la partie invisible, ce que l’on appelle le web profond. Ce qui est étonnant : le Web profond est plusieurs fois plus volumineux que tout le contenu que l’on peut trouver via Google, par exemple.

Aucun moteur de recherche et aucun humain ne connaît la taille réelle du Deep Web. Cependant, il y a des hypothèses. Une étude de 2001 suppose que le web profond est environ 550 fois plus grand que le web visible, c’est-à-dire la partie visible d’Internet. L’ampleur a probablement augmenté au cours des 20 dernières années.

Afin de représenter au mieux les deux parties, les experts aiment donc utiliser le motif d’un iceberg. La petite partie au-dessus de la surface de l’eau symbolise le contenu visible et la partie beaucoup plus grande en dessous représente tous les sites Web invisibles.

Le Deep Web est-il un autre mot pour le Dark Web ?

Si le contenu est introuvable ou ne doit pas l’être, l’hypothèse est évidente : les criminels sont ici pour faire des bêtises qui veulent garder secret tout le trafic de données. Ce n’est pas tout à fait vrai du Deep Web. Des transactions illégales d’armes ou l’échange de fichiers interdits se produisent au sein du Dark Web ou du Darknet. Cependant, cette partie sombre d’Internet appartient au Deep Web.

Le dark web ne peut pas simplement être traqué et saisi. C’est une sorte de club privé auquel quelqu’un doit être invité. Cependant, cela n’est pas possible avec Firefox ou Google Chrome. Cela nécessite des navigateurs spéciaux, tels que le navigateur Tor. Pour accéder réellement au dark web, des connaissances informatiques approfondies sont nécessaires. Dans tous les cas, le Deep Web n’a rien à voir avec le Dark Web.

Lisez aussi : Pouvez-vous vraiment surfer sur Internet de manière anonyme avec le navigateur Tor ?

Pourquoi les sites Web sont-ils invisibles ?

Même le Web profond n’est pas accessible avec les navigateurs habituels. Même pour le plus grand moteur de recherche au monde, Google, une grande partie d’Internet reste complètement invisible. Comment est-ce possible ? En principe, chaque site Web visible peut être rendu invisible avec des méthodes très simples. Une petite digression sur la façon dont un moteur de recherche détecte le contenu en premier lieu.

Fondamentalement, le Web visible fonctionne comme une table des matières. Il existe un soi-disant index. Fondamentalement, si un site Web est indexé, il peut être trouvé par n’importe quel moteur de recherche.

En termes simples, il existe deux possibilités pour lesquelles les pages Web n’apparaissent pas dans l’index :

  • Raisons techniques : Un moteur de recherche exclut des pages de l’index parce que le contenu est profondément imbriqué et très étendu.
  • Voulu ou auto-infligé : Ici, l’exploitant du site a délibérément ou inconsciemment empêché l’indexation par programmation.

Une astuce de programmation typique fonctionne sur le code source d’un site Web, c’est-à-dire le niveau auquel la programmation détermine l’apparence d’un site Web à l’écran. L’ajout de la commande HTML noindex place automatiquement une page Web sur le Web profond.

Les cinq catégories du Deep Web

En regardant de plus près le web profond, il y a encore plus de raisons pour lesquelles les sites Web ne peuvent pas être trouvés via les moteurs de recherche habituels et sont donc invisibles.

Les experts divisent le Deep Web en cinq catégories :

  • Web invisible : Ces sites Web ne sont délibérément pas indexés par les exploitants du site, par exemple avec la commande noindex. On peut spéculer sur les raisons. Un antécédent criminel n’est pas pertinent.
  • toile opaque: Opaque signifie opaque ou opaque. Ces sites Web peuvent essentiellement être indexés. En raison de la profondeur du site Web, le contenu ne peut pas être complètement pénétré par le moteur de recherche. Il inclut également certains types de médias et de fichiers, tels que les documents PDF volumineux. Les sites de spam sortent également de l’index. Ce sont des sites Web qui n’ont été programmés que pour monter plus haut dans les classements Google. Même les nouveaux sites Web sont inclus car un moteur de recherche a besoin de quelques jours pour pénétrer et indexer complètement les nouvelles pages. Par exemple, les articles de presse passent également entre les mailles du filet parce qu’un sujet n’est pertinent que pendant très peu de temps.
  • Internet privé: Cela inclut tous les sites Web qui n’ont pas d’URL, seulement une adresse IP, les pages protégées par mot de passe et les grandes bases de données des bibliothèques, des collèges ou des universités. Bien sûr, toutes les pages intranet également.
  • Web propriétaire: Semblable au Web privé, les moteurs de recherche n’y ont pas accès car, par exemple, les conditions d’utilisation doivent être acceptées ou l’enregistrement est nécessaire. Le contenu derrière peut être précieux, mais il est invisible pour le moteur de recherche. Bien que Google puisse faire beaucoup, il ne peut pas encore remplir d’enregistrement de page.
  • Web vraiment invisible: Cela inclut principalement les formats de fichiers non standard tels que Flash ou les formats spécifiques au logiciel.

Le Deep Web est-il vraiment invisible ?

Réponse claire : non. Même le contenu invisible peut être trouvé. Il existe des milliers de moteurs de recherche spéciaux pour cela, y compris pour

  • Sites scientifiques – https://www.wolframalpha.com/
  • Articles de presse particulièrement à jour et donc introuvables par les moteurs de recherche généralistes – https://paperball.news/
  • Formats de fichiers spéciaux – https://duckduckgo.com/ (il suffit d’ajouter au terme de recherche filetype:pdf pour différents formats de document ou contains:mp3 pour les formats audio ou vidéo)

Les établissements d’enseignement ont généralement leurs propres moteurs de recherche pour parcourir les bases de données spécialisées. Ceux-ci sont organisés, par exemple, via un soi-disant catalogue d’accès public en ligne – OPAC en abrégé. Il s’agit d’un accès en ligne pour les bibliothèques, par exemple dans les universités.



ttn-fr-35