Cómo funciona Google

Junto al surgimiento de los blogs, el nacimiento de Google ha sido posiblemente el hito más importante de la historia digital, hasta tal punto que hay quien habla de dos eras (antes y después de Google).

Esto se debe a que democratizó la información en la red permitiendo que millones de personas pudieran tener un acceso inmediato y universal a resultados relevantes. Y que ese proceso fuese sencillo e increíblemente rápido.

Aunque el motor de búsqueda ha ido evolucionando con diferentes factores en su algoritmo, su interfaz y funcionamiento es,  en esencia, el mismo que hace casi 25 años. Se resume en estos tres procesos:

  • Rastreo
  • Indexación
  • Relevancia

Rastreo

Google tiene servidores repartidos en diferentes centros de datos por todo el planeta. Estos equipos, además de almacenar información, contienen algoritmos y unos peculiares programas informáticos denominados arañas o crawlers que tienen un objetivo único en su vida: rastrear páginas webs, leerlas y llevarse la información a un servidor.

Las arañas inspeccionan la red de forma metódica y automatizada; cuando hay una página o un contenido nuevo, llegan hasta él, lo leen y siguen sus enlaces hasta un tercer nivel. Si quieres comprobar cómo lee el crawler una página prueba a darle al botón derecho del ratón y hacer clic en “Ver cómo código fuente”.

 

Una vez que la araña ya tiene la información, la comprime y se la lleva al servidor de Google. Este proceso lo realiza con otras millones de páginas webs y lo repite varias veces al día, a la semana…

Indexación

Nos gusta imaginar a Google como un bibliotecario que va guardando copia de todos los libros (contenidos) que les van proporcionando sus peculiares agentes (arañas).

De este modo, cuando esa información recién rastreada llega a los servidores, Google la indexa. Es decir, la archiva y cataloga en su índice, a la vez que le otorga una determinada puntuación.

El índice de búsqueda de Google contiene cientos de miles de millones de páginas web que, juntas, superan los 100.000.000 gigabytes. Es similar al índice de las últimas páginas de un libro: dispone de una entrada para cada palabra de cada página web que indexa. Al indexar una página web, añade al índice todas las palabras que contiene.

Pero debes saber que Google no indexa todas las páginas webs que hay en el mundo sino solo aquellas que permiten el acceso a las arañas. Por tanto cuando buscas en Google, en realidad no estamos “buscando en internet” sino en el índice de Google.

Relevancia

Cuando un usuario accede a Google y realiza una búsqueda, en realidad lo que hace el sistema es abrir su índice y localizar las páginas que son más relevantes para esa búsqueda y usuario en concreto. Para eso utiliza el famoso algoritmo y presenta al usuario todos los resultados ordenados del más relevante al menos relevante.

 Para medir esta relevancia, al principio como hemos explicado, el algoritmo se basaba únicamente en el número y calidad de enlaces que una web recibía desde otras.  En base a ello le otorgaba una puntuación que variaba entre 0 y 10  llamada PageRank. Es decir, para Google un enlace recibido en tu página desde otra es como un “voto”… y además, no es lo mismo que te “vote” una página muy popular que una muy poco conocida, sus votos valdrán distinto. Las páginas con mayor PageRank serán las primeras en posicionar.

Pero este algoritmo ha ido evolucionando a lo largo del tiempo y además del sistema ponderado de enlaces, en la actualidad tiene en cuenta más de 200 factores.

No sólo eso, como veremos más adelante, gracias al big data y la inteligencia artificial Google se anticipa a la intención de búsqueda del usuario y es capaz de ofrecer resultados diferentes que tienen en cuenta distintas circunstancias como su localización, historial de navegación y búsquedas, tipo de dispositivo, etc.

La siguiente pieza correspondiente a la película Ralph Rompe Internet representa perfectamente todo lo que acabamos de ver: