¿Nunca te has preguntado qué sucede cuando haces clic en el botón ‘buscar’ de Google? Los buscadores son en apariencia tan sencillos que ni siquiera sentimos la necesidad de preguntarnos cómo funcionan.
El problema es que los buscadores se han convertido para muchos en la única puerta a la Red, e incluso hay usuarios que no son capaces de diferenciar Google del propio Internet, solo porque es la primera página web que ven todos los días. Por eso, para que conozcas mejor cómo son, cómo ‘piensan’ y las posibilidades y límites que tienen, te proponemos un viaje por un universo de procesos y complejos algoritmos que sucede en cuestión de milisegundos.
Los pasos básicos de todo buscador
- Análisis: Todo empieza mucho antes de que un usuario cualquiera escriba su frase o términos de búsqueda en la caja mágica de un buscador. Un programa robot (‘spider’) escanea páginas como cualquier usuario normal, solo que muy rápido. Los ‘spiders’ van de página en página siguiendo los enlaces existentes. Analizan los títulos de página, los meta datos, las palabras que hay y el número de veces que aparecen, así como los enlaces hacia otras páginas web. A veces también otra información relacionada con el diseño de la web. Este paso, denominado ‘crawling’ en inglés, es parte del día a día de cualquier buscador, independientemente de las búsquedas de los usuarios. La frecuencia y velocidad con que los buscadores rastrean la web es vital. Los atentados de las Torres Gemelas en 2001 pusieron en evidencia al motor de Google. En esos días, los usuarios hacían búsquedas del tipo “torres gemelas nueva york”, pero lo único que obtenían era información general del World Trade Center porque el ‘mapa de la web’ de Google era del mes anterior. Fue aquí donde el buscador se planteó el reto de rastrear la web más rápido. Y nació Google News. Los primeros buscadores a menudo requerían que se les enviase la página para poder realizar el análisis de la misma, mientras que hoy en día, los principales buscadores rastrean la web cada día. No todos los buscadores realizan este proceso de rastreo. Por ejemplo, Wolfram Alpha es un buscador de respuestas que recurre a una base de datos propia con información introducida de forma manual por los empleados de la compañía. Por esta razón, Wolfram Alpha no es considerado por muchos como un motor de búsqueda como tal.
- Organización: La información procedente del trabajo de los robots ha de ser almacenada y categorizada, de forma que pueda ser accesible cuando se necesite. Un buscador no rastrea todo Internet en cada búsqueda, sino que bucea en su gran base de datos de más de 100 millones de gigabytes.
- Comprensión de la búsqueda: Este es el paso más importante para el usuario, ya que de ello depende que obtenga resultados relevantes, y también en donde podemos encontrar las principales diferenciaciones entre unos buscadores y otros. Algunos, como Google o Bing, funcionan mediante palabras clave, mientras que otros, como Wolfram Alpha, te permiten hacer preguntas. Todos hemos introducido un término de búsqueda en varios buscadores y obtenido resultados diferentes. ¿Por qué se produce? La comprensión de una búsqueda depende de los algoritmos utilizados, que son el lenguaje que permite entender a un buscador lo que el usuario quiere. El buscador selecciona resultados en base a la reputación de la web, la vigencia de los contenidos, el contexto y el idioma, entre otros. También puede establecer otros filtros, como por ejemplo, que no aparezcan resultados de páginas con contenido para adultos. Sin embargo, en el mundo vertiginoso de Internet parece que ya no basta con esto, también hay que anticiparse al usuario y ofrecerle recomendaciones de búsqueda, como hace Google gracias a la funcionalidad de autocompletado. Además, el motor de búsqueda puede detectar fallos de ortografía, comprender sinónimos y mostrar resultados de forma instantánea. En resumen, el sistema de búsquedas se va refinando poco a poco para que el usuario piense menos en la búsqueda en sí, y más en la relevancia de los resultados obtenidos. El impacto que esta estrategia puede tener en el acceso a los contenidos daría para un debate de calado. ¡Pero no es de lo que se trata aquí!
- Batalla al spam: Algunas webs han sido creadas de forma deliberada para engañar a los programas de rastreo de los buscadores y aparecer más alto en la lista de resultados mediante diversas técnicas que sacan partido de sus debilidades. Por ejemplo, utilizando palabras clave de forma abusiva en los metadatos de la página o usando palabras clave no relacionadas con la información de la web. A lo largo de los años, las técnicas de los ‘spammers’ se han perfeccionado y, como respuesta, los buscadores han tenido que actualizar periódicamente sus algoritmos. Los algoritmos se basan en señales únicas para poder aportar información relevante al usuario. Estas señales pueden incluir, como se ha mencionado antes, la actualización de la web o la relevancia de su contenido en relación con la búsqueda. De la misma forma, los algoritmos de spam filtran los resultados mirando señales únicas que permiten detectar una web que utiliza técnicas spam.
- Formato de los resultados: La forma más básica en que buscadores como Google, Bing o Yahoo muestran los resultados consiste en un título, una breve descripción (‘snippet’) y un enlace. Sin embargo, en ocasiones la información se nos puede ofrecer en una multitud de formatos. Si buscamos el tiempo en Londres, aparecerá un gráfico con la predicción meteorológica para los próximos días. A menudo se destacan aquellos procedentes de blogs u otros medios de comunicación y se ofrecen imágenes o vídeos entre los resultados. Junto a los resultados de algunas búsquedas, en los lados o en la parte superior, también se pueden incluir anuncios pagados. Y al pie de página a veces aparecen recomendaciones de búsqueda.
¿Los buscadores lo ven todo?
No. De hecho, se estima que un 95% de los contenidos de la web quedan fuera del alcance de los buscadores. Como hemos explicado antes, los programas robot o ‘spiders’ que rastrean la web se sirven de los enlaces de una página a otra para ir tejiendo el mapa de la red. Sin embargo, algunas webs son inaccesibles porque están protegidas con contraseñas, son bases de datos que requieren introducir comandos de búsqueda (algo que los programas robot no pueden hacer) o por deseo expreso de los propietarios de la web, entre otras razones.
Aunque el Internet invisible no es un fenómeno nuevo, ha dado mucho que hablar en los últimos tiempos como consecuencia del cierre de la web Silk Road, conocida como el eBay de las drogas. Numerosas organizaciones criminales desarrollan sus actividades delictivas al margen del Internet visible, ofreciendo sus servicios de matones a sueldo y vendiendo productos ilícitos. Como operan en el más absoluto anonimato, y las posibilidades de ser descubiertos son casi inexistentes, pueden continuar operando con total impunidad. Ahora bien, esto no significa que todo el contenido del Internet invisible sea ilegal. La llamada ‘dark web’ o web oscura es solo una parte de ese Internet.
No toda la ‘deep web’ es inaccesible para los buscadores, pero sí la gran mayoría. Google tiene indexadas unas cuantas decenas de miles de direcciones procedentes de la deep web, y se puede acceder a ellos introduciendo un sencillo comando de búsqueda. También hay buscadores más específicos que pueden bucear en bases de datos propias para acceder a información de la ‘deep web’.
La forma de búsqueda en las profundidades de Internet es bastante diferente a la superficie, donde podemos encontrar cosas aunque no sepamos muy bien qué queremos. Por eso se suele decir que en el Internet de la superficie se navega y en el Internet Profundo se bucea. Por otra parte hay diferentes niveles de profundidad bajo la superficie, categorizados según los tipos de información existentes en cada uno y los métodos necesarios para acceder a ella. En cualquier, la red profunda no es cosa de niños, y te recomendamos obtener más información aquí si quieres satisfacer tu curiosidad y acceder a ella.
Comentarios: 1