
Si quieres encontrar algo en Internet, normalmente lo buscas en Google. Pero hay sitios web que incluso el popular motor de búsqueda no puede encontrar. Porque están en la llamada web profunda.
Internet es mejor en comparación con nuestro universo. Así como el universo se hace más grande, la cantidad de contenido en Internet aumenta cada día. Otra cosa que tienen en común: solo conocemos una pequeña fracción de la inmensidad del espacio. Esto también se aplica a Internet, que consta de dos partes, la parte visible y la parte invisible, la llamada web profunda. Lo sorprendente: la web profunda es muchas veces más grande que todo el contenido que se puede encontrar a través de Google, por ejemplo.
Ningún motor de búsqueda ni ningún ser humano sabe qué tan grande es realmente la Deep Web. Sin embargo, hay suposiciones. Un estudio de 2001 especula que la web profunda es unas 550 veces más grande que la web visible, es decir, la parte visible de Internet. La extensión probablemente ha aumentado en los últimos 20 años.
Para representar mejor las dos partes, a los expertos les gusta utilizar el motivo de un iceberg. La pequeña parte sobre la superficie del agua simboliza el contenido visible y la parte mucho más grande debajo representa todos los sitios web invisibles.
¿Es Deep Web otra palabra para Dark Web?
Si el contenido no se puede encontrar o no se debe encontrar, la suposición es obvia: los delincuentes están haciendo travesuras aquí y quieren mantener en secreto todo el tráfico de datos. Esto no es del todo cierto en el caso de la Deep Web. Las transacciones ilegales de armas o el intercambio de archivos prohibidos ocurren dentro de Dark Web o Darknet. Sin embargo, esta parte oscura de Internet pertenece a la Deep Web.
La web oscura no puede simplemente ser rastreada e ingresada. Es una especie de club privado al que hay que invitar a alguien. Sin embargo, esto no es posible con Firefox o Google Chrome. Esto requiere navegadores especiales, como el navegador Tor. Para ingresar realmente a la web oscura, se requiere un conocimiento profundo de TI. En cualquier caso, la Deep Web no tiene nada que ver con la Dark Web.
Lea también: ¿Realmente se puede navegar por Internet de forma anónima con el navegador Tor?
¿Por qué los sitios web son invisibles?
Ni siquiera se puede acceder a la web profunda con los navegadores habituales. Incluso para el motor de búsqueda más grande del mundo, Google, una gran parte de Internet permanece completamente invisible. ¿Como puede ser? En principio, cada sitio web visible puede volverse invisible con métodos muy simples. Una pequeña digresión sobre cómo un motor de búsqueda detecta contenido en primer lugar.
Básicamente, la web visible funciona como una tabla de contenido. Hay un llamado índice. Básicamente, si un sitio web está indexado, cualquier motor de búsqueda puede encontrarlo.
En pocas palabras, hay dos posibilidades por las que las páginas web no aparecen en el índice:
- Razones técnicas: Un motor de búsqueda excluye páginas del índice porque el contenido está profundamente anidado y es muy extenso.
- Querido o autoinfligido: Aquí, el operador del sitio ha impedido deliberada o inconscientemente la indexación mediante programación.
Un truco de programación típico funciona en el código fuente de un sitio web, es decir, el nivel en el que la programación determina cómo debe verse un sitio web en la pantalla. Agregar el comando HTML noindex automáticamente lleva una página web a la web profunda.
Las cinco categorías de la web profunda
Echando un vistazo más de cerca a la web profunda, hay aún más razones por las que los sitios web no se pueden encontrar a través de los motores de búsqueda habituales y, por lo tanto, son invisibles.
Los expertos dividen la Deep Web en cinco categorías:
- Red Invisible: Estos sitios web no están indexados deliberadamente por los operadores del sitio, por ejemplo, con el comando noindex. Uno puede especular acerca de las razones. Los antecedentes penales son irrelevantes.
- red opaca: Opaco significa opaco u opaco. Estos sitios web básicamente se pueden indexar. Debido a la profundidad del sitio web, el motor de búsqueda no puede penetrar completamente el contenido. También incluye ciertos medios y tipos de archivos, como documentos PDF de gran tamaño. Los sitios de spam también salen volando del índice. Estos son sitios web que solo han sido programados para subir más arriba en las clasificaciones de Google. Incluso se incluyen nuevos sitios web porque un motor de búsqueda necesita unos días para penetrar completamente e indexar nuevas páginas. Por ejemplo, los artículos de noticias también pasan desapercibidos porque un tema solo es relevante por un tiempo muy corto.
- web privada: Esto incluye todos los sitios web que no tienen una URL, solo una dirección IP, páginas protegidas con contraseña y las grandes bases de datos de bibliotecas, colegios o universidades. Por supuesto, todas las páginas de intranet también.
- Web Propietaria: Al igual que en la web privada, los buscadores no tienen acceso porque, por ejemplo, hay que pactar las condiciones de uso o es necesario registrarse. El contenido detrás de él puede ser valioso, pero es invisible para el motor de búsqueda. Si bien Google puede hacer mucho, todavía no puede completar el registro de una página.
- Web verdaderamente invisible: esto incluye principalmente formatos de archivo no estándar, como Flash o formatos específicos de software.
¿La Deep Web es realmente invisible?
Respuesta clara: no. Incluso el contenido invisible se puede encontrar. Hay miles de motores de búsqueda especiales para esto, incluso para
- Sitios web científicos: https://www.wolframalpha.com/
- Artículos de noticias que están particularmente actualizados y, por lo tanto, los motores de búsqueda generales no los encuentran: https://paperball.news/
- Formatos de archivo especiales – https://duckduckgo.com/ (simplemente agregue al término de búsqueda tipo de archivo: pdf para diferentes formatos de documentos o contiene: mp3 para formatos de audio o video)
Las instituciones educativas suelen tener sus propios motores de búsqueda para navegar a través de bases de datos especializadas. Estos se organizan, por ejemplo, a través del llamado Catálogo de acceso público en línea (OPAC, por sus siglas en inglés). Este es el acceso en línea para las bibliotecas, por ejemplo, en las universidades.





