bocabierta

Lo que Google no ve

Desconozco totalmente la procedencia del dato y cómo se calcula, pero se dice que en internet hay más de 60 millones de sitios web y 1.000 millones de páginas. Principalmente accedemos a ellas a través de un buscador. Algunas veces me he preguntado qué pasaría si Google dejara de funcionar. Es una herramienta indispensable para dar con lo que buscamos.

Ahora bien, ¿qué tan fiables son los datos proporcionados por Google? ¿encuentra los mejores datos que hay disponibles o sólo una parte superficial de ellos?

Y la respuesta señor internauta es que la web es 500 veces más grande de lo que puede indexar el famoso buscador. Y aunque sigo manejando números que todavía no entiendo cómo se llega a ellos, vamos a ver por qué pasa esto.

Un artículo del Ciberpaís, el suplemento de tecnología de El País de Madrid, cuenta que

1) los buscadores no encuentran páginas que carecen de enlaces. “La única forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario”, de lo contrario, “esta web resultará invisible para todos aquellos usuarios de Internet que no conozcan la dirección concreta”.

2) Los buscadores indexan páginas que están programadas en HTML y poco a poco van incorporando otros formatos (como DOC o PDF), pero buena parte del resto permanece oculto.

3) La información que se genera dinámicamente no es indexada. Los buscadores alegan que no lo hacen porque “se han dado bastantes casos de rastreadores que se han visto atrapados en las llamadas trampas de araña, un sitio con miles o millones de páginas diseñadas sólo para bloquear los motores de búsqueda”.

4) Los datos que se generan en tiempo real no forman parte de los resultados de búsqueda por “su inmenso volumen y, principalmente, la gran rapidez con la que varía dicha información hacen bastante inservible para el usuario que un buscador generalista indexe un contenido tan fugaz”.

Bien, estos son los obstáculos que tarde o temprano los buscadores saltarán (como lo hizo Technorati primero y después Google con poner a dispoción un buscador exclusivo de blogs). Pero hay otra red a la que no acceden y es a la de las bases de datos. Se calcula que hay entre 200.000 y 500.000 bases de datos de acceso gratuito (de nuevo, no sé de dónde sale el número pero con decir 1.000 ya son muchas) y Google no puede indexarlas porque cada base tiene su propio sistema de indexación por el cual sólo un usuario puede preguntar y no una máquina automática.

¿Nos tenemos que resignar a que nunca vamos a encontrar lo que buscamos? No. Por suerte hay más buscadores que Google, Yahoo! y otros que más o menos buscan en los mismos sitios.

Para ver las diferencias entre estos buscadores existe Jux2 . Es un metabuscador (busca en Google, Yahho! y Ask Jeeves) dándonos los mejores resultados y la opción de ver los resultados que “Google está perdiendo” y los otros dos ven.

Y para buscar en las bases de datos, primero tenemos que encontrarlas. Y para eso existen buscadores específicos que nos ayudan a hacerlo como Internet Invisible , Invisible Web Directory , Complete Planet , Direct Search , Turbo10 o The Big Hub .

Via Tiscar di con este interesante estudio para quien le interese ampliar el tema de la web profunda: The Deep Web: Surfacing Hidden Value .


22/10/05 - 12:23 |



1 Comentario

  1. No creo que sean esos los números de la web. 60 millones de sitios parece demasiado poco, pero como tu dices, habría que ver como es que esto fue medido.
    Una cosa que me parece interesante es lo que dice el punto 1 “los buscadores no encuentran páginas que carecen de enlaces” creo que esto está bien ya que si una página no tiene enlaces (entrantes) es porque está desconectada del resto de Internet y por lo tanto no vinculada a ningún otro recurso de la red, por lo tanto es como que estaría formando una red aparte sin vinculación con el resto de la información, asi que mejor la dejamos fuera :P

    Comment por Pablo Viojo — 22/10/05 @ 16:07


RSS feed de los comentarios de este post.

TrackBack: http://bocabierta.blogsome.com/2005/10/22/lo-que-google-no-ve/trackback/


Comenta


HTML permitido: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>