Crawl Budget

« Back to Glossary Index

Il crawl budget è il numero di pagine che i motori di ricerca effettueranno il crawling di un sito web entro un determinato periodo di tempo.

I motori di ricerca calcolano il crawl budget in base al limite di crawl (la frequenza con cui possono effettuare il crawl senza causare problemi) e alla domanda di crawl (la frequenza con cui vorrebbero effettuare il crawl di un sito).

Se si spreca il crawl budget, i motori di ricerca non saranno in grado di effettuare il crawling del sito in modo efficiente, il che finirebbe per danneggiare le prestazioni SEO.

crawl budget per migliorare la scansione del sito da parte del motore di ricerca

Che cos’è il Crawl Budget?

Il crawl budget è la quantità di tempo e risorse che un motore di ricerca assegna per il crawling di un determinato sito web. In altre parole, è il numero massimo di pagine che un motore di ricerca può scansionare sul tuo sito entro un determinato periodo di tempo. Il crawl budget può variare a seconda dei motori di ricerca (o crawler).
Google afferma che non ci si deve preoccupare del crawl budget a meno che:

  • Il tuo sito ha oltre 1 milione di pagine uniche con contenuti che cambiano circa una volta alla settimana
  • Hai un sito web di medie dimensioni, vale a dire circa 10.000 pagine, e cambiate i contenuti frequentemente (ogni giorno)
  • Gestisci un sito web di notizie
  • Search Console classifica la maggior parte degli URL del tuo sito come Scoperti – attualmente non indicizzati.

Ogni sito web riceve un budget di crawl diverso in base a questi due fattori:

  • Crawl Demand (Domanda di crawling). È definita dal numero di pagine, dalla frequenza di pubblicazione/aggiornamento e dalla popolarità delle pagine.
  • Crawl rate limit (Limite della velocità di crawling). È influenzato dalle capacità del server, dal limite di crawl impostato (in Search Console) dal proprietario del sito, dal limite di crawling del motore di ricerca, ecc. Google può anche regolare automaticamente la velocità di crawling quando il server è lento e viceversa.

Perché i motori di ricerca assegnano il crawl budget ai siti web?

Perché non hanno risorse illimitate e dividono la loro attenzione su milioni di siti web. Hanno quindi bisogno di un modo per dare priorità al loro sforzo di crawling. L’assegnazione di un budget di crawling a ciascun sito web li aiuta a farlo.

Il crawl budget riguarda solo le pagine?

In realtà non è così, per comodità parliamo di pagine, ma in realtà si tratta di qualsiasi documento che i motori di ricerca scansionano. Alcuni esempi di altri documenti: File JavaScript e CSS, varianti di pagine mobili, varianti hreflang e file PDF.

Come funziona in pratica il limite di crawl/carico dell’host?

Il limite di crawl, o carico dell’host, è una parte importante del budget di crawl. I crawler dei motori di ricerca sono progettati per evitare di sovraccaricare un server web con le richieste, quindi sono attenti a questo aspetto. Come i motori di ricerca determinano il limite di crawl di un sito web? Ci sono diversi fattori che influenzano il limite di crawl. Per citarne alcuni:

  • Segni di una piattaforma in cattive condizioni: la frequenza con cui gli URL richiesti vanno in timeout o restituiscono errori del server.
  • La quantità di siti web in esecuzione sull’host: se il tuo sito web è in esecuzione su una piattaforma di hosting condiviso con centinaia di altri siti web e avete un sito web piuttosto grande, il limite di crawl per il tuo sito web è molto limitato, poiché il limite di crawl è determinato a livello di host. Devi condividere il limite di crawl dell’host con tutti gli altri siti in esecuzione su di esso. In questo caso sarebbe molto meglio utilizzare un server dedicato, che molto probabilmente ridurrà anche in modo massiccio i tempi di caricamento per i visitatori.

Un’altra cosa da prendere in considerazione è quella di avere siti mobile e desktop separati che girano sullo stesso host. Anche loro hanno un limite di crawl condiviso. Quindi tienilo a mente.

Come funziona in pratica la richiesta di crawl e la programmazione di crawl?

La domanda di crawl, o programmazione dei crawl, consiste nel determinare l’utilità di effettuare nuovamente il crawling degli URL. Anche in questo caso, molti fattori influenzano la domanda di crawling, tra cui:

  • Popolarità: il numero di link interni ed esterni in entrata di un URL, ma anche la quantità di query per cui si posiziona.
  • Freschezza: la frequenza con cui l’URL viene aggiornato.
  • Tipo di pagina: è probabile che il tipo di pagina cambi. Prendiamo ad esempio una pagina di categoria di prodotto e una pagina di termini e condizioni: secondo voi, quale delle due cambia più spesso e merita di essere sottoposta a crawling più frequentemente?

Da non dimenticare: la capacità di crawl del sistema stesso

Sebbene i sistemi di crawling dei motori di ricerca abbiano un’enorme capacità di crawling, alla fine dei conti è limitata. Quindi, in uno scenario in cui l’80% dei data center di Google va offline nello stesso momento, la loro capacità di crawling diminuisce massicciamente e, di conseguenza, il budget di crawling di tutti i siti web.

Perché il Crawl Budget è importante?

Il crawl budget è importante perché influisce sul numero di pagine che Googlebot può scansionare sul vostro sito. Inoltre, influisce anche sulla frequenza con cui esso può effettuare il recrawling delle vostre pagine web per aggiornare il suo indice.

Google dispone di enormi risorse, ma non può effettuare il crawling (e il recrawling regolare) di tutte le pagine di Internet. Di conseguenza, Google assegna un budget di crawl ai siti web.

Per questo motivo, è necessario assicurarsi che il budget di crawl non venga sprecato per la scansione di pagine poco importanti del sito.

Detto questo, non è necessario preoccuparsi del crawl budget se si gestisce un blog standard o un piccolo sito web.

Come aumentare il crawl budget?

Ecco come ottimizzare il crawl budget del sito.

1. Velocizzare il server e ridurre i tempi di caricamento delle pagine

Il tempo di risposta del server e la velocità di caricamento delle pagine influiscono direttamente sul crawling. Funziona in questo modo:

Quando il bot di Google effettua il crawling del vostro sito, scarica prima le risorse e poi le elabora. Se il vostro server risponde rapidamente alle richieste di crawling da parte di Google, è in grado di scansionare più pagine del vostro sito.

Utilizzate quindi un servizio di web hosting veloce e affidabile e una Content Delivery Network (CDN) per migliorare il tempo di risposta iniziale del server.

Allo stesso tempo, riducete i tempi di caricamento delle pagine:

  • Impedire il crawling di risorse grandi ma non critiche utilizzando il robots.txt
  • Evitare lunghe catene di redirect
  • Sbarazzarsi di temi e plugin pesanti e mal codificati per ridurre l’ingombro delle pagine.

Il numero di link a una pagina indica a Google l’importanza di questa pagina. Googlebot dà la priorità alle pagine con più backlink e link interni (internal linking).

Quindi, puoi aumentare il crawl budget aggiungendo più link esterni e interni alle vostre pagine. Mentre ottenere le raccomandazioni da siti esterni può richiedere tempo e non è (completamente) sotto il tuo controllo, puoi iniziare con l’opzione più semplice: i link interni.

Troppi link interni interrotti (codici di risposta 404 o 410) e URL reindirizzati (3xx) possono sprecare il budget di crawl del sito. Anche se queste pagine avranno una bassa priorità di crawl se sono rimaste invariate per un po’ di tempo, è meglio sistemarle per ottimizzare il budget di crawl e per la manutenzione generale del sito.

Una volta individuati i link interni interrotti, è possibile ripristinare la pagina con lo stesso URL o reindirizzare l’URL a un’altra pagina pertinente.

Per quanto riguarda i reindirizzamenti, verificate se ci sono molti reindirizzamenti inutili e catene di reindirizzamento e sostituiteli con un link diretto.

4. Utilizzare l’API di indicizzazione, se possibile

Un altro modo per accelerare il crawling delle pagine è utilizzare l’APIdi indicizzazionediGoogle. Questa consente di notificare direttamente a Google ogni volta che si aggiungono, rimuovono o aggiornano le pagine del sito.

Tuttavia, l’API di indicizzazione è attualmente disponibile solo per casi d’uso come i video in diretta e gli annunci di lavoro. Quindi, se è applicabile al vostro sito, potete utilizzarla per mantenere aggiornati i vostri URL nell’indice e nei