Come funziona il crawling di Google

Per prima cosa, Google esplora il web alla ricerca di nuove pagine. Successivamente, le indicizza per capire di cosa parlano e, in ultimo, ne assegna il posizionamento sulla base degli algoritmi di valutazione dei dati rilevati. La prima fase è definita crawling, la seconda indexing e la terza ranking: crawling e indexing sono due azioni compiute dallo stesso “pezzetto” di software sviluppato da Google: il crawler. Quindi oggi parliamo di… come funziona il crawler.
del 24/05/21 - di Gerardo Tartaglia

Cos’è il crawler?

Come scritto in apertura, il crawler (definito anche “spider” o “searchbot”) è quella parte del processo di posizionamento di Google (o degli altri motori di ricerca) che si occupa di scansionare la rete, alla ricerca di nuovi contenuti (nuove pagine o semplici aggiornamenti) che ancora non sono stati inseriti nel proprio (immenso) database. Ogni motore di ricerca possiede il suo insieme di crawler, che nel caso di Google è costituito da oltre 15 differenti tipologie, la principale delle quali è rappresentata dal Googlebot: esso si occupa sia della fase di crawling che di indicizzazione, e la sua conoscenza può rivelarsi fondamentale per una corretta strategia SEO.

Come funziona il crawler?

Non esistendo un “registro URL” centrale, che in qualche modo si aggiorna ogni volta che una nuova pagina viene creata, il googlebot deve continuamente e costantemente scansionare la rete per rilevare nuovi contenuti, ed aggiornare così il database delle pagine esistenti. Ogni volta che una nuova pagina viene scoperta, il googlebot visualizza la stessa in un browser (rendering), caricandone tutto l’html, codici di terze parti, javascript e css. Tali informazioni vengono quindi memorizzate ed utilizzate per indicizzare la pagina (e poi posizionarla nei risultati di ricerca). Quindi le fasi sono:

CRAWLING > RENDERING > INDEXING

Come viene visualizzata dal crawler la pagina web?

In uno scenario perfetto, il crawler visualizza la pagina esattamente per come tu l’hai realizzata ed assemblata: purtroppo, tale scenario non è molto vicino alla realtà, che appare assai più complicata. Innanzitutto, il googlebot visualizza la pagina con due sottotipi di crawler: desktop e mobile.

Mobile e desktop rendering

Dall’introduzione del first-mobile index, quando Google ha ritenuto che la richiesta di pagine web da mobile fosse ormai superiore a quella da device desktop, quest’ultimo è divenuto il crawler principalmente utilizzato per il rendering sia della versione per smartphone che per desktop. Solo laddove il sito si rivelasse non ottimizzato per i dispositivi mobile, allora viene utilizzato il crawler desktop. Tuttavia, tale versione viene comunque impiegata per consentire al motore di ricerca di rilevare il livello qualitativo del sito anche su tali dispositivi.

In sostanza: il tuo sito sarà comunque visitato sia dal googlebot mobile che dal googlebot desktop, con maggiore importanza data al primo rispetto al secondo. Pertanto, è fondamentale fare in modo che entrambe le versioni delle pagine web siano ben ottimizzate.

HTML e javascript rendering

Devi fare attenzione che non ci siano problematiche nel codice della tua pagina, che potrebbero indurre il googlebot a considerarla vuota. Ad esempio nel caso di codice javascript, può accadere che il googlebot non sia in grado di interpretare correttamente le ultimissime versioni, e questo rende necessario assicurarsi che i tuoi JS siano effettivamente pienamente supportati. Altra problematica si verifica qualora i tempi di caricamento degli JS (o di altri script) sia eccessivo (5 secondi circa), in tal caso il googlebot non sarà in grado di indicizzare il contenuto generato da quel codice. Per questi motivi, talvolta viene utilizzato il server-side rendering, che consente solitamente una piena compatibilità e lettura dei contenuti JS da parte del crawler.

Cosa influenza il comportamento del crawler?

Il googlebot non lavora certamente in modo casuale, ma il suo comportamento è regolato da sofisticati algoritmi. Ciò non significa, tuttavia, che si possa in qualche modo condizionare tale comportamento agendo su determinati parametri. Vediamone alcuni.

Link (interni ed esterni)

Se le pagine del tuo sito sono già indicizzate (e posizionate) da Google, il googlebot cercherà ad intervalli regolari eventuali aggiornamenti dei contenuti: per questo motivo, è molto importante posizionare i link alle nuove pagine in posizione rilevante all’interno del sito, ad esempio la home page. Ecco perchè si è soliti utilizzare dei blocchi che riportano le ultime news, gli articoli del blog più recenti o gli ultimi prodotti pubblicati su uno shop online, anche se di fatto ognuno di questi contenuti ha una sua pagina dedicata, questi riferimenti in home aiuteranno il crawler a trovarli in modo più rapido.

In termini di crawling, anche i link esterni (backlinks) lavorano più o meno allo stesso modo: se aggiungi una nuova pagina al tuo sito, un link esterno che punta su quella pagina aiuterà il googlebot ad indicizzarla più rapidamente. Fai in modo che il link sia di tipo “dofollow”…

Profondità del link

La “click depths” è un parametro molto importante, che identifica quanto “lontana” è una pagina rispetto alla home. In sostanza, quanti click occorrono per raggiungerla partendo dalla homepage del tuo sito. Idealmente, non dovrebbero mai essere più di 3, un valore superiore porta il crawler quasi ad ignorare la pagina, ed è pertanto sconsigliabile soprattutto se in essa vengono posizionati contenuti rilevanti per l’utente finale e per il posizionamento del sito.

Sitemap

La sitemap è un documento (solitamente xml) che contiene l’elenco completo delle pagine del tuo sito web che Google dovrebbe indicizzare. E’ possibile sottoporre al googlebot tale documento utilizzando Google Search Console, per aiutarlo a capire cosa visitare ed indicizzare. Talvolta si utilizzano sitemap multiple per consentire al crawler di assegnare delle priorità alle pagine.

E’ però molto importante avere ben presente che l’invio di una sitemap non garantisce assolutamente che la stessa sia seguita dal googlebot, che può ignorarla totalmente o parzialmente: tuttavia, nella maggior parte dei casi questa operazione può rivelarsi utile, soprattutto in presenza di siti con molte pagine (più di 400/500 URL).

Direttive di indicizzazione

Ciò che invece viene (quasi) certamente seguito alla lettera dal googlebot sono le direttive di indicizzazione, solitamente contenute nel file robots.txt o in determinati tag di pagina (es. noindex).

Il file robots.txt è un file posizionato nella directory principale del sito che, di fatto, crea delle restrizioni al crawler indicando quali pagine o elementi non devono essere oggetto di indicizzazione: quando il googlebot rileva modifiche a tali risorse, le ignora e prosegue con il suo lavoro. Ovviamente, tali pagine (o immagini, o altro tipo di contenuto) non verranno posizionate su Google.

I tag sono utilizzati allo stesso scopo, oppure per indicare al crawler come una determinata pagina deve essere indicizzata (es. potresti decidere che un contenuto debba essere processato dal googlebot mobile ma non da quello desktop). Tuttavia, il noindex tag ha una valenza molto importante, superiore a quella del file robots.txt: se quest’ultimo, infatti, viene interpretato come una “raccomandazione”, il noindex tag è invece una direttiva certa, e se presente inibisce sicuramente l’indicizzazione di una determinata pagina.

Dopo quanto tempo il tuo sito apparirà nei risultati di Google?

E chiudiamo con una domanda che tanti, tantissimi nostri clienti (e non) ci fanno continuamente… E’ chiaro che le pagine di un nuovo sito web non possono essere immediatamente indicizzate dal crawler per apparire nei risultati di ricerca. Tuttavia, non è neanche vero (come ancora alcuni SEO sostengono) che ci possono volere mesi per questo processo: certamente vanno distinte due differenti casistiche. Se parliamo di un nuovo dominio, di un’attività mai menzionata e/o linkata sul web e quindi di un sito totalmente nuovo, i tempi possono essere più lunghi, anche di diversi giorni (abbiamo visto siti indicizzarsi completamente solo dopo un mese dalla pubblicazione). Se invece parliamo di nuove pagine, o di un sito rifatto ma che comunque ha dei riferimenti sul web (le vecchie pagine ancora indicizzate, o link che puntano alla home o a pagine interne, ecc…), allora solitamente l’indicizzazione avviene dopo pochi giorni.

Un parametro molto importante quando si parla di indicizzazione di nuove pagine è il crawling budget. Esso rappresenta la quantità di risorse che Google deve dedicare mediamente al crawling del tuo sito web: maggiori saranno tali risorse, più lenti saranno i tempi di indicizzazione.

Già, ma cosa influenza il crawling budget? Di questo parleremo nel prossimo articolo!

Come funziona il crawling di Google

di Gerardo Tartaglia

WebSenior

Responsabile account:
Gerardo Tartaglia (Titolare)

Come funziona il crawling di Google

di Gerardo Tartaglia

WebSenior

Responsabile account: Gerardo Tartaglia (Titolare)

Responsabile account:
Gerardo Tartaglia (Titolare)