La Web Superficial o visible:
A través de los buscadores tradicionales podemos acceder a la Web Superficial o visible. La búsqueda de información es de libre acceso, no es necesario un registro para acceder a la información. La información no está contenida en bases de datos. En la mayoría está formada por páginas o archivos con una URL fija y accesibles desde otro enlace.
La Web Profunda o invisible:
No podemos acceder a través de los buscadores tradicionales. La nformación es almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP,
PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante
(temporales) desapareciendo una vez cerrada la consulta.
Según Lluis Codina debería llamarse "la web no indizable" ya que se refiere al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público.
Clasificación de la Web Profunda o invisible:
He realizado un esquema para que sea visiualmente más atractiva con la herramienta bubbl.us. Es una herramienta muy fácil de usar que recomiendo.
En un estudio
realizado en 2001, Sherman y Price clasificaron la Internet Invisible en cuatro
categorías distintas: la web opaca (the opaque web), la web privada (the prívate
web), la web propietaria (the proprietary web) y la web realmente invisible
(the truly invisible web) .
Web Opaca
Esta categoría está
formada por los archivos que podrían aparecer en los motores de búsqueda
pero que no lo hacen por alguna de las siguientes razones:
- Extensión de la
indización: los buscadores no indizan todas las páginas de un sitio web por
razones económicas.
- Frecuencia de la
indización: aunque cada día se crean, modifican o eliminan páginas
web, la indización realizada por los motores de búsqueda no sigue el mismo
ritmo, razón por la cual hay páginas existentes en la web que aún no han sido
indexadas y, por lo tanto, forman parte de la web invisible.
- Número máximo
de resultados visibles: no todas las páginas existentes en la web, aun
siendo indexadas por los buscadores, aparecen en la lista de resultados generada
por los mismos, ya que éstos limitan el número de documentos mostrados
(entre 200 y 1000 documentos).
- URL’s
desconectados: los grandes buscadores actuales presentan la lista de resultados en
orden de relevancia de los documentos según éstos hayan sido ligados en
otros y basándose en el número de veces que aparecen referenciados. Si un
documento no se encuentra enlazado por ningún otro,es posible que éste
no sea descubierto, ya que no habrá sido indizado.
Web Privada
Esta categoría está
formada por las páginas web que podrían aparecer en los motores de
búsqueda pero que éstos no las indizan debido a que son excluidas intencionadamente
por algunas de las siguientes razones:
- El propietario del
sitio web pretende mantener una página sin ser enlazada desde ningún otro
sitio dentro de su propio dominio, de esta forma un usuario no puede
encontrar dicha página navegando dentro de esa web. Esta técnica no es
muy efectiva ya que aunque el propietario intente mantener esa página
oculta, puede aparecer en algún lugar su enlace y, por lo tanto, será
referenciada.
- La página está
protegida mediante el uso de contraseñas (passwords). Se puede hacer mediante
dos formas principales: la primera es utilizando el archivo .htaccess
(esta forma se utiliza cuando no se tiene acceso al servidor), y la
segunda es utilizando el panel de administración (cuando tienes acceso al
servidor).
- La página
contiene un archivo robots.txt que no permite la indización de la misma o de partes de
la misma.
- En la página
aparece una etiqueta “noindex” que le indica a los robots de los buscadores que no
deben indizar esa página.
- El propietario
ha bloqueado la URL de la página en Google Webmaster Tools. Esta
herramienta permite eliminar la página de Google una vez que haya sido indexada,
pero no impide su indezación.
Web
propietaria
En esta categoría
se incluyen las páginas a las que los usuarios solo pueden acceder a su
contenido mediante el registro en las mismas, ya sea de forma gratuita o pagada.
El contenido
perteneciente a esta categoría ha aumentado con el paso de los años debido, en
gran medida, a la aparición de las redes sociales, que necesitan el registro de los
usuarios para acceder a las mismas.
Web
Realmente Invisible
Esta categoría está
compuesta por aquellas páginas que no pueden ser indizadas por los
buscadores debido a limitaciones técnicas de los mismos, como por ejemplo:
- Páginas web que
contienen documentos en formatos pdf, PostScript, Flash,Shockwave, programas
ejecutables y archivos comprimidos.
- Páginas
dinámicas. Aquellas generadas partiendo de los datos que mete el usuario.
- Información
almacenada en bases de datos relacionales. Esta información no puede ser
extraída a menos que se haga una petición específica sobre ella. Además, se
añaden otras dificultades como la estructura y diseño de las bases de datos y los
procedimientos de búsqueda existentes.Sin embargo, a lo
largo de estos años los grandes buscadores como Google han ido
desarrollando algoritmos nuevos que le permiten rastrear algunos formatos de
archivos, documentos y bases de datos mencionados anteriormente que antes quedaban
excluidos.
¿Qué podemos
encontrar en la Internet Invisible
En la Internet
Invisible se puede encontrar una gran cantidad de información, el
problema es saber encontrarla. La mayor parte de los usuarios cree que la Internet
Invisible sólo almacena contenido ilegal e inmoral, pero esto no es cierto, ya que se
puede encontrar información bastante útil y de gran calidad. Podemos encontrar
desde bibliotecas con mucho material, revistas, diccionarios ,expedientes y
archivos clasificados, hasta un gran número de actividades ilegales,como páginas de
pedofilia, venta de drogas, construcción de bombas, etc. Se recomienda
mantenerse alejado de cualquier cosa que aparezca etiquetada como
“chan”, “CP” o “Candy” ya que posiblemente se trate de
sitios de pornografía
infantil. Hay que evitar a toda costa la etiqueta CP.
Por el lado bueno de
la Internet Invisible, podemos encontrar guías y listados
telefónicos, e-mail y todo tipo de directorios, incluyendo listas de profesionales de
cualquier disciplina. También podemos encontrar la venta de productos a través
de e-commerce, leyes, decretos, casi cualquier tipo de información legal
(aunque ésta también puede ser encontrada en webs estáticas), archivos multimedia
y publicaciones digitales de libros y diarios. En esta parte también podemos
encontrar sitios donde se comparten distintos conocimientos sobre sistemas,
seguridad y muchas más cosas que sin duda resultan interesantes y no tienen ningún
tipo de consecuencias para el usuario promedio.
Algunos de los recursos de búsqueda que podemos encontrar aquí son:
- The WWW Virtual Library que contiene el catálogo más antiguo de laweb.
- Infoplease es una Web a la que se pude acceden a encoclopedias, atlas y biografías.
- DeepWebTech que ofrece motores de búsqueda que abarcan la ciencia, la mediciona y negocios .
- TechXtra para acceder a resvistas especializadas de ingenería, documentos tećnicos, descartas y popcasts.
Por el lado malo, en
esta parte de Internet también podemos encontrar pedofilia, venta de drogas, hackers, sicarios, películas
hardcandy...También podemos encontrar manuales para fabricar bombas,
venta de órganos, procedimientos para envenenar, mutilaciones, manuales de
guerrilla, lavado de dinero y un sinfín de cosas más en torno a
este campo.
Aquí os dejo una presentación visual de la Web profunda que he realizado con el programa thinklink. Con ésta herramienta se puede hacer una presentación visual atractiva. He seleccionado diferentes documentos y formatos para ello. Al pasar el ratón por los iconos y hacer click se abre el documento. He utilizado la versión gratuita que limita el uso de iconos y de posibilidades. De todas maneras me parece una herramienta muy útil para presentar de forma más atractiva los documentos. !Espero que os guste!
La fotografía utilizada pertenece a http://www.runawaybrit.com/2013/12/05/jokulsarlon-finding-icebergs-on-the-beach-in-iceland/