Se entiende por Presupuesto de rastreo o Crawl Budget, al número de páginas que Googlebot u otro buscador rastrea e indexa en un límite de tiempo determinado.
Esta definición resulta ser muy básica para la gran complejidad que comprende este término.
De hecho, Google no tiene un solo término para definir qué significa el presupuesto de rastreo. Es un término compuesto de muchas partes.
Es por eso que Gary Illyes, un analista de tendencias en Google Webmaster, se dio a la tarea de explicar sobre este término en un artículo en el webmaster blog sobre el Crawl Budget y lo que significa para Googlebot.
En este artículo vamos a explorar algunas cosas interesantes del blog escrito por Gary Illyes.
Tabla de Contenidos
Límite de velocidad de rastreo o Crawl Rate Limit
Cuando Googlebot rastrea un sitio, hay un número determinado de conexiones simultáneas que puede hacer, y establece el tiempo que debe esperar entre las recuperaciones. Esto se llama «límite de frecuencia de rastreo», y el límite de cada sitio es único.
El límite de velocidad de rastreo se define por dos factores:
- Salud del rastreo: lo que significa que si el servidor del sitio responde rápidamente, Googlebot puede usar más conexiones. Si el sitio comienza a ralentizarse debido a un rastreo excesivo de errores (4XX, 5XX), Googlebot reducirá el límite de rastreo.
- Limitar el rastreo por Google Search Console (GSC): los webmaster o SEO, pueden usar GSC para establecer un límite de frecuencia de rastreo manualmente en la sección: “Configuración del sitio”.
Demanda de Rastreo o Crawl Demand
El límite de velocidad de rastreo es insignificante si no hay demanda de indexación en primer lugar.
La baja demanda es igual a la baja actividad de Googlebot. El Crawl Demand está influenciado por dos factores aparentemente opuestos, la popularidad y la obsolescencia.
Google quiere mantener el contenido popular actualizado en su índice, al tiempo que evita que el contenido antiguo se vuelva obsoleto.
La demanda de rastreo también puede verse influenciada por eventos en todo el sitio, como cambios en las páginas, creación o modificación de secciones, entre otros, lo que desencadena un aumento en la demanda ya que Googlebot tiene que reindexar las nuevas URL y actualizar las modificadas.
La combinación de la frecuencia de rastreo y la demanda de rastreo crea una definición más clara de lo que es el presupuesto de rastreo, lo que Illyes explica es «la cantidad de URL que Googlebot puede y quiere rastrear».
Factores que afectan el presupuesto de rastreo
Para que su sitio mantenga un presupuesto de rastreo óptimo, Illyes recomienda no desperdiciar recursos en URL de bajo valor agregado que pueden robar la actividad de rastreo de su contenido de alta calidad.
Illyes define URL de bajo valor agregado como:
- Navegación facetada e identificadores de sesión
- Contenido duplicado en el sitio
- Páginas de error suave
- Páginas pirateadas
- Infinitos espacios y proxies
- Baja calidad y contenido no deseado
Conclusiones sobre el Crawl Budget
En esta explicación magistral sobre el presupuesto de rastreo del señor Gary Illyes, podemos sacar varias conclusiones:
- La velocidad del sitio es un factor determinante para aumentar el presupuesto de rastreo.
- Mantener una página web saludable sin problemas a nivel de servidor (errores 5XX) o problemas a nivel de página (errores 4XX) es favorable para Googlebot u otros buscadores.
- Podemos utilizar las propias herramientas de Google como Search Console o herramientas de terceros como Semrush Site Audit, para monitorear lo que ocurre en nuestros sitios y mantener los errores al mínimo.
- El rastreo no es un factor directo de clasificación, sin embargo al mantenerlo optimizado, logramos que Googlebot y otros bots de búsqueda, puedan rastrear de manera más eficiente la información relevante para la estrategía SEO.
- Las URL alternativas, las URL de AMP, el contenido incrustado y las largas cadenas de redireccionamiento afectan negativamente el presupuesto de rastreo.
- Las páginas marcadas como nofollow aún se pueden rastrear y, por lo tanto, no afectan el presupuesto de rastreo.