Cuantos recursos dedica Google a rastrear tu página web?

En 2014 se celebraron los 25 años de Internet anunciando a bombo y platillo que existen más de 1000 millones de páginas web en la red y que con la democratización de la construcción de webs y blogs este número sigue creciendo a un ritmo frenético. ¿Por qué Google iba a dedicar su valioso tiempo y electricidad en rastrear mi página web y no la del vecino?

Si debiéramos repartir entre todos los sitios del mundo las 24h del día esto daría una cifra ridícula. Es evidente que Google debe implementar algún ingenioso sistema para poder rastrear e indexar cuantas más páginas web al día mejor. Y este sistema debe incluir, las páginas conocidas y las nuevas páginas por conocer.

Todo un reto tecnológico que es posible gracias a las arañas de google (Google Bots) y a los preciosos data centers como el de la imagen a continuación.[vc_raw_html]JTNDaWZyYW1lJTIwc3JjJTNEJTIyaHR0cHMlM0ElMkYlMkZ3d3cuZ29vZ2xlLmNvbSUyRm1hcHMlMkZlbWJlZCUzRnBiJTNEJTIxNHYxNTE1NTIxNDc4MDg1JTIxNm04JTIxMW03JTIxMXN1TUxpYm1zZ2RuWGYyX2JDY3RZRU13JTIxMm0yJTIxMWQzNS44OTgxNzc1ODg4NDg2NSUyMTJkLTgxLjU0ODE2MjI0MjcwMjE4JTIxM2YyMC4yJTIxNGYwJTIxNWYxLjMwNTIyMjcwNDU5Mzg0NjclMjIlMjB3aWR0aCUzRCUyMjEwMCUyNSUyMiUyMGhlaWdodCUzRCUyMmF1dG8lMjIlMjBmcmFtZWJvcmRlciUzRCUyMjAlMjIlMjBzdHlsZSUzRCUyMmJvcmRlciUzQTAlMjIlMjBhbGxvd2Z1bGxzY3JlZW4lM0UlM0MlMkZpZnJhbWUlM0U=[/vc_raw_html]Google nos explica en este enlace como hace posible la proeza de rastrear la web e indexarla.[vc_raw_html]JTNDaWZyYW1lJTIwd2lkdGglM0QlMjIxMDAlMjUlMjIlMjBoZWlnaHQlM0QlMjIzMTUlMjIlMjBzcmMlM0QlMjJodHRwcyUzQSUyRiUyRnd3dy55b3V0dWJlLmNvbSUyRmVtYmVkJTJGQk5IUjZJUUpHWnMlMjIlMjBmcmFtZWJvcmRlciUzRCUyMjAlMjIlMjBhbGxvdyUzRCUyMmF1dG9wbGF5JTNCJTIwZW5jcnlwdGVkLW1lZGlhJTIyJTIwYWxsb3dmdWxsc2NyZWVuJTNFJTNDJTJGaWZyYW1lJTNF[/vc_raw_html]

En una primera fase Google tiene un ejercito de arañas que van siguiendo los enlaces que van encontrando en la red.
En una segunda fase estas arañas encuentran un sitio web y almacenan en memoria una copia para ser estudiada a posteriori.
En una tercera fase entra la artillería pesada de estudio de datos para tomar decisiones sobre la información leída y etiquetar nuestras páginas web para determinadas búsquedas (querys) que los usuarios puedan hacer en internet.

Pues bien, el caso es que para cada página web conocida Google le asigna un Crawl Budget (o presupuesto de indexado) que viene a indicar cuantas páginas al día lee de nuestra página web.

Cuando indexó Google un contenido por última vez?

Muy bien. Entonces porqué a veces escribo y no se indexan mis nuevas entradas en el blog?

Lo primero es comprobar que efectivamente así esta sucediendo.

Si escribes contenidos y ves que no se indexan una posibilidad es que google no haya visitado tu página web todavía. Según lo que hemos explicado anteriormente parece lógico….

Para saberlo haz la búsqueda siguiente:

¿Y cuando indexará google mi página?

Entramos de lleno en el concepto de Crawl Budget. Esto es ni más ni menos que una bolsa de url que google va a decidir indexar de tu web. Por ejemplo la página de inicio, la de contacto, el sobre-mi y 2 entradas en el blog. Esto seria un Crawl Budget de 5 para el caso particular que estoy describiendo.

Fijaros que hay url que con probabilidad se van a indexar más que las otras porqué Google les otorga una mayor importancia relativa en comparación a las otras que puedes tener en tu web. Y que por lo tanto habrán url de tu web que incluso podrían llegarse a indexar… ¡nunca!

En proyectos nuevos el Crawl Budget suele ser bajo. Como es mi caso. ¿Dónde lo miro?
Cuantos recursos dedica Google a rastrear tu página web? 1
En mi caso actual particular todo es más bien normal. En el momento en el que estoy mirando tengo una media de 3 url indexadas al día.

Y según el mapa del sitio de mi web ya he enviado a indexar 36 páginas y 29 imágenes…. es decir que haciendo una pequeña división, la información que me está dando google es que va a necesitar 22 días para indexar todos los contenidos de mi sitio si a día de hoy dejase de añadir nuevas entradas, páginas e imágenes[blockquote text=»Google va a necesitar un mínimo de 22 días para indexar todos los contenidos actuales. ¡Casi nada!» show_quote_icon=»yes»]
Cuantos recursos dedica Google a rastrear tu página web? 2

Truquillos para incrementar tu presupuesto diario de rastreo

La idea es muy sencilla: no le hagas perder el tiempo a la araña de Google.

Puedes optimizar tu robots.txt (esto explicaré otro día como se hace que la entrada de hoy ya me está empezando a consumir un exceso de presupuesto diario de tiempo asignado a mi blog 😉
Si utilizas el plugin de Yoast SEO para wordpress optimiza con cabeza que contenidos vas a decidir indexar. Por ejemplo en mi caso particular no estoy indexando ni etiquetas ni categorías para evitar problemas de contenido duplicado pero sobre todo para paliar un poquito mi carencia de crawl budget.
Si utilizas plantilla de pago mucho cuidado con indexar taxonomías que no usas para nada. Me refiero a las tipicas doctors_categories, portfolio_categories, …. etc
Publica con frecuencia. Si escribes con cierta regularidad google va a acabar aprendiendo y ajustando sus sistemas para pasar con más frecuencia por tu sitio web.
Evita los enlaces rotos dentro de tu página y hacia fuera o de fuera a dentro. Google odia el aviso 404 porqué es un gasto inútil de tiempo y recursos dedicados al rastreo e indexación.

Pero si hay algo que puedo recomendar, no intentes engañar nunca nunca nunca a Google. Se daría cuenta y te interesa más estar de su lado. O de lo contrario ya no sería white SEO sino Black SEO y a la larga termina siendo un mal camino sino eres un crack como el famoso Chiuso… ¡date un vistazo por su web ;)!

Hasta aquía la entrada de hoy. Si te ha parecido interesante o tienes alguna idea que complemente o mejore la entrada házmelo saber en los comentarios!

Cuantos recursos dedica Google a rastrear tu página web?

Cuando indexó Google un contenido por última vez?

¿Y cuando indexará google mi página?

Truquillos para incrementar tu presupuesto diario de rastreo

Deja una respuesta Cancelar la respuesta