
09 Ene Cuantos recursos dedica Google a rastrear tu página web?
En 2014 se celebraron los 25 años de Internet anunciando a bombo y platillo que existen más de 1000 millones de páginas web en la red y que con la democratización de la construcción de webs y blogs este número sigue creciendo a un ritmo frenético. ¿Por qué Google iba a dedicar su valioso tiempo y electricidad en rastrear mi página web y no la del vecino?
Si debiéramos repartir entre todos los sitios del mundo las 24h del día esto daría una cifra ridícula. Es evidente que Google debe implementar algún ingenioso sistema para poder rastrear e indexar cuantas más páginas web al día mejor. Y este sistema debe incluir, las páginas conocidas y las nuevas páginas por conocer.
Todo un reto tecnológico que es posible gracias a las arañas de google (Google Bots) y a los preciosos data centers como el de la imagen a continuación.
- En una primera fase Google tiene un ejercito de arañas que van siguiendo los enlaces que van encontrando en la red.
- En una segunda fase estas arañas encuentran un sitio web y almacenan en memoria una copia para ser estudiada a posteriori.
- En una tercera fase entra la artillería pesada de estudio de datos para tomar decisiones sobre la información leída y etiquetar nuestras páginas web para determinadas búsquedas (querys) que los usuarios puedan hacer en internet.
Pues bien, el caso es que para cada página web conocida Google le asigna un Crawl Budget (o presupuesto de indexado) que viene a indicar cuantas páginas al día lee de nuestra página web.
Cuando indexó Google un contenido por última vez?
Muy bien. Entonces porqué a veces escribo y no se indexan mis nuevas entradas en el blog?
Lo primero es comprobar que efectivamente así esta sucediendo.
Si escribes contenidos y ves que no se indexan una posibilidad es que google no haya visitado tu página web todavía. Según lo que hemos explicado anteriormente parece lógico….
Para saberlo haz la búsqueda siguiente:
¿Y cuando indexará google mi página?
Entramos de lleno en el concepto de Crawl Budget. Esto es ni más ni menos que una bolsa de url que google va a decidir indexar de tu web. Por ejemplo la página de inicio, la de contacto, el sobre-mi y 2 entradas en el blog. Esto seria un Crawl Budget de 5 para el caso particular que estoy describiendo.
Fijaros que hay url que con probabilidad se van a indexar más que las otras porqué Google les otorga una mayor importancia relativa en comparación a las otras que puedes tener en tu web. Y que por lo tanto habrán url de tu web que incluso podrían llegarse a indexar… ¡nunca!
En proyectos nuevos el Crawl Budget suele ser bajo. Como es mi caso. ¿Dónde lo miro?

En mi caso actual particular todo es más bien normal. En el momento en el que estoy mirando tengo una media de 3 url indexadas al día.
Y según el mapa del sitio de mi web ya he enviado a indexar 36 páginas y 29 imágenes…. es decir que haciendo una pequeña división, la información que me está dando google es que va a necesitar 22 días para indexar todos los contenidos de mi sitio si a día de hoy dejase de añadir nuevas entradas, páginas e imágenes
Google va a necesitar un mínimo de 22 días para indexar todos los contenidos actuales. ¡Casi nada!

Truquillos para incrementar tu presupuesto diario de rastreo
La idea es muy sencilla: no le hagas perder el tiempo a la araña de Google.
- Puedes optimizar tu robots.txt (esto explicaré otro día como se hace que la entrada de hoy ya me está empezando a consumir un exceso de presupuesto diario de tiempo asignado a mi blog 😉
- Si utilizas el plugin de Yoast SEO para wordpress optimiza con cabeza que contenidos vas a decidir indexar. Por ejemplo en mi caso particular no estoy indexando ni etiquetas ni categorías para evitar problemas de contenido duplicado pero sobre todo para paliar un poquito mi carencia de crawl budget.
- Si utilizas plantilla de pago mucho cuidado con indexar taxonomías que no usas para nada. Me refiero a las tipicas doctors_categories, portfolio_categories, …. etc
- Publica con frecuencia. Si escribes con cierta regularidad google va a acabar aprendiendo y ajustando sus sistemas para pasar con más frecuencia por tu sitio web.
- Evita los enlaces rotos dentro de tu página y hacia fuera o de fuera a dentro. Google odia el aviso 404 porqué es un gasto inútil de tiempo y recursos dedicados al rastreo e indexación.
Pero si hay algo que puedo recomendar, no intentes engañar nunca nunca nunca a Google. Se daría cuenta y te interesa más estar de su lado. O de lo contrario ya no sería white SEO sino Black SEO y a la larga termina siendo un mal camino sino eres un crack como el famoso Chiuso… ¡date un vistazo por su web ;)!
Hasta aquía la entrada de hoy. Si te ha parecido interesante o tienes alguna idea que complemente o mejore la entrada házmelo saber en los comentarios!
Entradas relacionadas:
Siempre que soy contratado para un nuevo proyecto recibo una demanda tan previsible como la respuesta que voy a dar.
He ido al circo a ver un espectáculo de payasos en el que he pagado bastante más que si me hubiesen cobrado entrada en taquilla. Es la magia de la taquilla inversa. Y del circo.
Imagina 10 coches pitando mientras el primero aparca. No lo consigue y se va. ¿Qué podemos aprender?
La política de contenidos de Google no es un capricho. Piensan en tu comodidad y en su... bolsillo. ¿Pero y el del creador de contenidos informacionales?
¿Cuál fue el actor más popular en 2003? ¿Y el deportista de moda en 2006? ¿Incluso, la raza de perros más buscada desde 1999 a 2018? 20 años de búsquedas en Google.
Me considero generación Google. Recuerdo la primera vez que lo usé en 1999 cuando me lo recomendaron frente a Altavista, Yahoo y otras herramientas de búsqueda que usaba en aquel entonces. En ese mome...
No Comments