Questo articolo parte da una ricerca di Roman Adamita che, come me, utilizza Screaming Frog Log File per le analisi di quel mondo oscuro che sono i milioni di record custoditi nel server.
Purtroppo per esperienza personale ancor oggi vedo agenzie molto quotate nell’ambito Seo snobbare l’analisi dei file di log e personalmente non comprendo se questa mancanza sia dovuta a una supponenza del sapere o basata sull’ignoranza della materia.
L’analisi dei file di log reputo sia una delle azioni basilari quando si debba scansionare un sito web, un e-commerce o portale e si voglia comprendere a fondo le criticità presenti e passate avendo a disposizione milioni di informazioni da sfruttare per la salute dei nostri progetti.
Secondo il mio parere la conoscenza del presente, senza una radicata conoscenza della storia passata di un dominio rappresenta solo la punta di un iceberg che potrebbe far affondare come il Titanic, anche il progetto più vincente. I dati di Search Console e Google Analytics ci indicano la via per le nostre strategie future ma se il motore della nostra macchina è inceppato e consuma Crawling Budget come un vecchio catorcio il risultato sarà indubbiamente sotto le aspettative.
Molti potrebbero contestare queste osservazioni riprendendo una delle ultime uscite via Twitter di John Muller in cui si mette in luce che progetti con un numero di Url inferiore a milioni di elementi da crawlerare non incida sul crawling budget di Google ma, personalmente non ci credo. Aspetto che un fulmine mi colpisca in questo momento!
Per esperienza personale nei progetti che ho seguito in cui ho sistemato e tagliato i rami secchi (errori 4xx, redirect in loop etc.) la frequenza di scansione e la profondità da parte del Bot del Motore di Ricerca è sensibilmente aumentata. Sarà stata fortuna? Allora sono stato baciato dalla Dea bendata visto che almeno il 90% dei progetti in cui ho messo il focus sui file di log ha subito questo trattamento da parte di Mountain View.
Ritornando alla ricerca menzionata sopra lo studio è stato posto su 7.2 milioni di eventi utilizzando come user agent Google su un e-commerce che presenta oltre 100 mila pagine indicizzate. Ma quali risposte ha dato questo progetto in pratica? Vediamo alcune considerazioni e approfondimenti molto interessanti.
1- Quante volte GoogleBot scansiona il file robots.txt?
Google utilizza in modo intensivo il file robots.txt per comprendere quali risorse devono o non devono essere crawlerate e diventa vitale permettere l’accesso a questo file. nell’analisi Googlebot ha scansionato il file robots.txt da 6 a 60 volte al giorno. In 10 mesi, Googlebot ha richiesto il file robots.txt più di 24 mila volte – il che si traduce in circa 2.400 volte al mese.
Gli indirizzi IP più comuni utilizzati per scansionare il file robots.txt sono stati:
66.249.76.106 (ISP: Google – Stati Uniti)
66.249.76.97 (ISP: Google – Stati Uniti)
È importante ricordare che questo sito ha quasi 100.000 pagine indicizzate. nella normalità, se il sito web è piccolo, il robots.txt sarà scansionato con un tasso molto più basso.
2- C’è la possibilità di vedere nei file di Log da dove arriva GoogleBot?
All’interno dei file di log è possibile scoprire il “referrer”, che indica a Googlebot l’esistenza del nostro sito web.
Non vedrete tutti i backlink in questa lista, ma c’è la possibilità di scoprire alcune cose strane che altri strumenti possono mancare, come l’indirizzo IP del vostro sito web che è indicizzabile. Nel caso in esame, il sito web aveva otto indirizzi IP indicizzabili. Se il sito originale ha 100K pagine indicizzate, allora ci sono 800K pagine duplicate a causa di questi domini basati su IP.
Come SEO, dobbiamo informare gli sviluppatori di casi come questo, e gli sviluppatori di solito impediranno che quegli indirizzi IP siano crawlabili.
Non tutti i siti web avranno lo stesso problema, ma è comunque qualcosa di cui bisogna essere consapevoli.

3- Quanti IP differenti utilizza Google?
Se consideriamo che ci potrebbero essere alcuni bot che possono impersonare anche Googlebot (vedi Screaming Frog), potrebbe essere bene iniziare con quanti user agent Googlebot ha dovuto affrontare lo studio in un periodo di 10 mesi.

Dall’analisi ci sono circa 124 diversi user agent con un totale di 7.231.982 eventi generati da Googlebot. Non più tardi di quest’anno, Google ha pubblicato gli indirizzi IP di Googlebot per definire la paternità degli stessi.
Durante lo studio (durato 10 mesi) dei file di log, Roman si è imbattuto in migliaia di indirizzi IP diversi.
Cosa si può fare con queste migliaia di indirizzi IP?
- Usarli per verificare se l’IP di Googlebot è reale o no
- Puoi controllare da quale paese Googlebot sta scansionando il tuo sito web
- Diventa più facile filtrare lato server per indirizzo IP per trovare i log verificati da Googlebot
Per ovviare in parte a questa condizione puoi utilizzare Screaming Frog Log File Analyser e far verificare tutti i principali bot dei motori di ricerca proprio all’interno dello strumento:

4- Quali sono le pagine che GoogleBot scansiona più frequentemente?
Non è una sorpresa che, nel caso analizzato la homepage fosse la pagina più scansionata, come dovrebbe essere.
Ma potresti essere sorpreso di sentire il resto delle pagine più richieste:
- Image* – che è un’icona usata in quasi tutte le pagine.
- File Robots.txt
- Header Image – il marchio l’ha usato sui dispositivi mobili nella parte superiore della homepage.
- Pagine con errori 4xx e 5xx
5- Le pagine 4xx sono state crawlerate più di tre volte?
Dall’analisi, le pagine 404 possono essere scansionate un numero illimitato di volte.
Perché questo potrebbe essere il caso?
- Ci sono ancora siti web che fanno riferimento a quella vecchia pagina – la pratica migliore in questo caso è contattare il proprietario del sito web e fargli sapere della pagina sostituita.
- È collegata internamente e non è stata ancora sostituita – anche se hai reindirizzato la vecchia pagina, devi rimuovere i collegamenti ad essa da ogni pagina (es. puoi scoprirlo attraverso Screaming Frog Inlinks).
- È inclusa in una sitemap XML statica – idealmente una sitemap dovrebbe venire aggiornata dinamicamente in modo che le pagine vengano aggiunte e rimosse automaticamente.
- Gli URL di sfondo in stile Div non si aggiornano da soli – è meglio controllare il codice sorgente per assicurarsi che non ci siano immagini rotte.
Questa ricerca ossessionata di Googlebot verso pagine che non esistono più potrebbe rivelarsi una piaga che su siti di grosse dimensioni potrebbe inesorabilmente deficitare il crawling Budget. Ma perché Googlebot non si dà pace? Oltre alle indicazioni qui indicate se la pagina non ha più senso di esistere potrebbe essere il caso di utilizzare lo status code 410 e dare un forte segnale al Motore di Ricerca. Non avere paura del 410 non ti mangia e a volte è l’unica soluzione nel medio periodo..prima o poi Google mollerà la presa.
6- Quante volte Googlebot crawlera un pagina con redirect 301?
Dall’analisi gli URL che presentavano redirect 301 sono stati richiesti per oltre 9 mesi confermando per il momento quanto dichiarato da John Muller e Matt Cutts che è necessario mantenere la rindirizzamento per almeno un anno per far capire a Google quale sia la nuova risorsa.

Nello studio è emerso che uno dei motivi di questi eventi è che quelle vecchie pagine (che ora sono reindirizzate) sono collegate internamente. Alcune di esse hanno meno eventi di crawl perché Googlebot ha iniziato a capire qual è la nuova pagina.
Alcune di esse avevano link esterni che non potevano essere aggiornati, quindi c’era poco da fare se non aspettare che Google riconoscesse i nuovi link.
Dall’esperienza di Roman ci sono stati altri casi in cui Googlebot ha crawlerato decine di pagine che avevano più di 3 anni e ha restituito un codice di risposta 404. Questa condizione non è insolita per i siti di grandi dimensioni, e non è necessario intraprendere alcuna azione. Non perderai alcun valore dal budget di crawl per il tuo sito, e non è necessario reindirizzare 301 ogni singola pagina 404.
Questa consuetudine del bot deve fare sempre riflettere ogni Seo.
Non è necessario diventare più compulsivi di Hannibal Lecter ogni qual volta ci si imbatte in un errore 4xx, soprattutto dopo una migrazione. Le domande da porsi sono essenzialmente tre.
- Quell’URL quante Impression e Click ha generato negli ultimi 6-12 mesi? Se ha avuto un certo rendimento quali sono le query che hanno attivato la pagina? Le risposte sono già in mano tua in Search Console nella sezione “rendimento”.
- La seconda domanda da farsi quanti visitatori ha ospitato quel preciso URL? La risposta la trovi comodamente in Google Analytics.
Se i risultati nei due canali di analisi sono zero o quasi a zero puoi tranquillamente lasciare l’errore (o mettere un 410) e vivere sonni sereni. - L’ultima domanda da farsi che molte volte viene snobbata ma ritengo fondamentale: “L’intento di ricerca di quella pagina è stato soddisfatto in altre sezioni del sito web?” Se la risposta è negativa devi intervenire. Questo metodo di ragionamento è solo un esempio ma che molti sottovalutano; fare il SEO è una questione seria e i tool sono solo dei palliativi alla tua fame di ricerca e soluzione dei problemi.
7- Quanto spesso Googlebot scansiona le paginazioni degli URL?
Nell’analisi è stato quasi impossibile dare un numero esatto per questa domanda, ma in media guardando gli eventi per la seconda pagina, la frequenza è stata fra 7 e 30 giorni. Googlebot di solito usa la serie di paginazione per capire la relazione tra le categorie.

Nonostante le paginazioni siano a detta di Google di facile individuazione e da qualche mese ha deprecato l’attributo “Next – Prev” vedo molti siti gestire questo elemento in modo assolutamente superficiale. Qui di seguito alcune considerazioni personali per la best Practice:
- Se le paginazioni sono generate solamente in Javascript ricorda che Google non esegue autonomamente alcuna azione e potrebbe non vedere tutte le risorse. Un avvertimento lo puoi avere guardando i file di log e verificando se raggiunge anche le pagine con maggiore profondità.
- Attenzione ai canonical! Tutte le pagine in serie sono “self canonical” altrimenti se vengono canonicalizzate verso la prima pagina perdi l’indicizzazione delle seguenti.
- Attenzione a “<< vai alla prima” e “>> vai all’ultima”, se il link è “dofollow” cambi inesorabilmente il ranking dell’internal linking.
8- Le pagine con maggiore traffico sono crawlerate più frequentemente?
Dall’analisi è emerso come le pagine con maggiore traffico non sempre coincidano con quelle che hanno avuto un’attenzione maggiore da parte del Crawler in termini di eventi.
Il consiglio è quello di monitorare sempre la profondità di scansione del Bot, questo indicatore è forse uno dei più importanti e ti indica se ci sono coni di bottiglia o altri impedimenti per una corretta e completa scansione delle risorse.
Attraverso i file di log puoi conoscere le pagine più frequentemente ricercate e creare nuove opportunità. In maniera molto superficiale se una pagina desta molto interesse per Google perché non lavorarla al meglio in termini di linking, contenuti o altri elementi onpage e sfruttarla come fosse un grimaldello per indicizzare anche altri contenuti al momento meno impattanti nell’indice del motore di Ricerca?
9- E’ importante avere molti prodotti in una categoria per aumentare l’attenzione di Google?
Dall’analisi sembrerebbe di No. Anche se alcune categorie merceologiche hanno 0 prodotti, Googlebot le scansionerà tanto quanto le altre pagine in modo periodico.
Questa condizione potrebbe essere causata da diversi fattori:
- Poiché queste categorie non restituiscono un codice di stato 304 (non modificato), Googlebot sta cercando di vedere se c’è qualche aggiornamento nell’elenco dei prodotti.
- È incluso nella sitemap XML, e Googlebot ama scansionare questo file molto spesso. Alcuni degli URL che sono inclusi nella sitemap XML non sono collegati internamente perché il marchio di solito nasconde le categorie che non hanno prodotti presenti.
- Queste categorie sono collegate in ogni pagina a causa del menu dell’intestazione o del piè di pagina. Suggerirei a tutti di controllare tutti i link che sono inclusi in ogni pagina del sito web.
Quindi da queste considerazioni cosa possiamo trarre come insegnamento? Che Googlebot non è molto preciso ma sicuramente metodico e compulsivo.
Vedo a malincuore degli e-commerce che utilizzano le pagine di categoria come dei meri scaffali di un supermercato di periferia. Personalmente se entro in un supermercato poco fornito, da utente mi trovo smarrito e mi inizio a fare delle domande. Non fraintendermi, se un prodotto finisce ovviamente fino al rifornimento successivo la pagina sarà vuota ma perché non sfruttare l’occasione della mia visita? Basta poco, sarebbe sufficiente propormi dei prodotti strettamente correlati che soddisfino il mio “search intent” ma soprattutto sarebbe ideale, anche con tutti gli scaffali pieni non propormi una sfilza di prodotti asettici e basta ma accompagnarmi con una certa empatia attraverso un copy che spieghi la categoria, ne valorizzi i vantaggi e enfatizzi la sua mission, altrimenti la mia scelta ricade su Amazon o marketplace simili, e abbandono il tuo e-commerce!
Ritornando all’esempio del supermercato con gli scaffali vuoti la mia percezione negativa potrebbe essere cambiata radicalmente se il commerciante invece di abbandonarmi in questa città fantasma mi chiede se può aiutarmi o mi propone gli stessi benefici con un altro prodotto o, si mette in prima persona a recuperarmelo in breve tempo. Googlebot è lo stesso, dategli materiale per continuare a scansionarvi non abbandonatelo.
10 – Quanto incide la velocità della pagina rispetto agli eventi generati?
Non serve molto per capire che la velocità di una pagina web per un utente rappresenti il mantra e che Google stia spingendo in modo considerevole verso il miglioramento delle performance introducendo “Esperienze sulle pagine” della Search Console e i famigerati Web Vitals che già hanno iniziato a mietere le prime vittime anche illustri.
LCP, FID e CLS devono diventare il mantra per un rapporto vincente con Google.
Ma di contrappasso lo studio fatto ha dimostrato anche delle eccezioni molto interessanti in termini di LCP:

- Googlebot scansiona comunque le pagine anche se hanno un basso punteggio di LCP.
- Le cinque pagine più scansionate hanno tra i 4 e i 19 secondi di carico LCP.
- In alcuni casi, Googlebot ha cercato di scansionare le pagine con un pessimo punteggio LCP più spesso.
- Le pagine con migliori punteggi LCP hanno più clic degli utenti rispetto ad altre con cattivi punteggi.
Concludendo
L’analisi di Romain mi ha dato alcuni spunti interessanti e avvallato la mia idea per cui non è pensabile fare delle analisi Seo senza scomodare i file di log e capire realmente cosa pensa Google di noi. Molte volte ci basiamo solamente sulla percezione sia nel lavoro sia nella vita reale. Sei sicuro che la persona che hai davanti e ti elogia non corrisponda alla stessa che seduta ad un altro tavolo elenca in modo sistematico i tuoi difetti? Con l’analisi dei file di log domini anche questo aspetto!
Testo originale: https://www.screamingfrog.co.uk/what-i-learnt-from-analysing-7-million-log-file-events/