COME GESTIRE I PROBLEMI DI SCANSIONE DEL SEO SPIDER

0
373

A volte può capitare che Screaming Frog esegua un crawl di una sola pagina o non scansioni come previsto. 

In quel caso le prime cose da controllare sono lo ‘Status’ e lo ‘Status Code’ delle risorse restituite per identificare il problema e risolverlo. 

Di seguito puoi esaminare i casi più comuni di criticità imputabili agli stati di risposta:

Blocked by Robots.txt: il filtro definisce tutti gli URL bloccati dal robots.txt del sito che non permette allo Spider di scansionare quelle risorse e di conseguenza di non poter indicizzare sui Motori di Ricerca.

Ogni risposta “0” nella colonna Status Code identifica la mancanza di una risposta HTTP del server, la colonna Status ne identifica il motivo. Nell’esempio sopra lo user-agent dello Spider è stato bloccato dal robots.txt attraverso la direttiva “disallow” ed essendo bloccato non può vedere la risposta HTTP.

What to do: 

Nel caso di risorse bloccate da robots è possibile impostare il Seo Spider per ignorarlo tramite Configurazione > Robots.txt > Impostazioni > Ignora Robots.txt o mediante la personalizzazione dello stesso. Di default Screaming Frog segue le indicazioni “disallow” del file robots.txt.

DNS lookup failed: identifica che il sito non è stato trovato per nulla per un errore di immissione del dominio o per una mancanza di connessione alla rete.

What to do: 

controlla che il sito sia stato scritto correttamente e che sia visibile nel tuo browser. Nel caso non sia possibile visualizzarlo mediante browser potrebbero esserci problemi con la connettività; nel caso invece il sito sia correttamente renderizzato sul browser dovresti controllare se ci sono eventuali Antivirus o Firewall che bloccano il Seo Spider.

Connection Timeout: identifica che Screaming Frog ha richiesto l’ HTTP response dal server ma non ha ricevuto risposta entro 20 secondi. Per ovviare al problema è possibile aumentare il “Response Timeout” dalle configurazioni  o diminuire la velocità dello spider (lowering Speed) per non caricare il Server e dargli più tempo per la risposta.

What to Do:

Controlla i tempi di caricamento del sito sul tuo browser; se sono molto lunghi puoi cambiare il tempo di “Timeout” sul Seo Spider e diminuire la velocità del crawler per alleggerire il server.

Controlla se riesci a scansionare altri siti con Screaming Frog. Se il problema è diffuso potrebbe esserci un problema con Antivirus e Firewall. Prova in questo caso a creare un’eccezione alla scansione di Screaming Frog. Se nemmeno questa soluzione risolve il problema probabilmente è presente un problema di rete o locale. Controlla ad esempio se il proxy è abilitato (Configurazione > Sistema > Proxy e nel caso lo fosse prova a disabilitarlo e riavvia il crawling.

Connection Refused: viene restituita quando il tentativo di connessione del Seo Spider è stato rifiutato in qualche punto tra la macchina locale e il sito web. 

What to do:

Riesci a scansionare altri siti web? Se la risposta è affermativa controlla l’Antivirus e Firewall e crea un’eccezione per lo Spider, se il problema è comune ad altri siti controlla che non si sia verificato un problema di rete o locale al tuo pc.

Puoi visualizzare la pagina nel browser o restituisce un errore simile? Se la pagina può essere vista cambia User-agent e utilizza “Chrome” (Configurazione > User-Agent).

No Response: il Seo Spider ha problemi a creare connessioni o a ricevere risposte. Un problema comune potrebbe essere il Proxy.

What to do:

Il primo controllo riguarda il proxy (Configurazione > Sistema > Proxy) in cui puoi provare a disabilitarlo. Se non è impostato correttamente allora questo potrebbe significare che il Seo Spider non sta inviando/ricevendo richieste correttamente.

Success (2XX): l’URL richiesto è stato ricevuto, compreso, accettato ed elaborato con successo. Il controllo che ti suggerisco di fare riguarda la presenza dell’attributo “noFollow”

What to do:

  • La pagina richiesta ha la direttiva meta robots ‘nofollow’ sulla pagina/nell’intestazione HTTP o tutti i link sulla pagina hanno attributi rel=’nofollow’? In questo caso è sufficiente impostare il Seo Spider a seguire gli Internal/External Nofollow (Configurazione > Spider). Questa criticità è dovuta al fatto che Screaming Frog segue le indicazioni “nofollow” di default.
  • Il sito web presenta  link JavaScript? Prova a disabilitare Javascript e visualizzare le pagine nel browser. Se ti trovi in questo caso ti basta abilitare il rendering JavaScript (Configurazione > Spider >Rendering > JavaScript). Per impostazione predefinita il Seo Spider scansiona solo i link <a href=””>, <img src=””> e <link rel=”canonical”> nel codice sorgente HTML e non legge il DOM.
  • Controlla la scheda “Limiti” di “Configurazione > Spider” in particolare le opzioni “Limit Search Depth” e “Limit Search Total”. Nel caso fossero impostati rispettivamente a 0 o 1, allora il Seo Spider viene istruito a scansionare solo un singolo URL.
  • Il sito richiede i cookie? Prova a visualizzare la tua pagina con il browser e i cookie disabilitati. Questa condizione si verifica perché al Seo Spider viene servita una pagina differente senza collegamenti ipertestuali nel caso di cookie disabilitati. Per risolvere questa criticità di scansione vai su Configuration > Spider > Advanced Tab > Allow Cookies
  • Cosa è specificato nella colonna ‘Contenuto’? Se non c’è alcun contenuto abilita il rendering JavaScript (Configurazione > Spider >Rendering > JavaScript) e prova ad avviare nuovamente crawl. Questa criticità si verifica se nessun tipo di contenuto è specificato nell’intestazione HTTP e il Seo Spider non sa se l’URL è un’immagine, PDF, pagine HTML ecc. quindi non riesce a scansionare per determinare se ci sono altri link. Questo può essere aggirato con la modalità di rendering in quanto il tool controlla se una <meta http-equiv> è specificata nella <head> del documento quando è abilitata.
  • Esistono delle restrizioni dovute all’età? In questo caso prova a cambiare lo user-agent a Googlebot (Configurazione > User-Agent). Il sito/server potrebbe essere impostato per servire l’HTML ai bot di ricerca senza richiedere l’inserimento dell’età.

Redirection (3XX): è stato riscontrato un reindirizzamento come 301 o 302. Idealmente ogni link interno dovrebbe collegarsi ad una risposta con status code 200 ed evitare collegamenti che facciano fare dei passi in più allo Spider in un’ottica di salvaguardare il Crawling Budget.

What to Do:

  • Controlla quale sia la destinazione del reindirizzamento (Controlla gli outlink dell’URL restituito). Se trovi una condizione di loop il Seo Spider non riesce a fare una scansione completa. 
  • Scheda External: il seo spider tratta diversi sottodomini come esterni e non li scansiona per default. Per risolvere questa condizione abilita l’opzione scansiona tutti i sottodomini. Configurazione > Spider > Scansiona tutti i sottodomini.
  • Il sito richiede i cookie? Prova a disabilitare i cookie dal tuo browser, se riscontri il problema abilita la funzione “Allow Cookies” nel Seo Spider. Configurazione > Spider > Scheda avanzata > Consenti cookie. Questa condizione si verifica perché il SEO Spider viene reindirizzato a un URL dove viene lasciato un cookie, ma non accetta i cookie.

Bad request (400) – 403 Forbidden – 406 Status Not Acceptable: il server non riesce o non vuole elaborare la richiesta e sta negando la richiesta del SEO Spider di visualizzare l’URL richiesto.

What to do:

  • Se la pagina può essere vista attraverso il tuo browser, prova ad impostare Chrome come user agent (Configurazione > User-Agent). Probabilmente il sito nega la pagina al nostro Seo Spider per questioni di sicurezza.
  • Se la pagina risponde con errore 404 il server sta indicando che non esiste più. Se anche cambiando lo user-agent in Chrome ti ritrovi nella stessa condizione presumibilmente è un problema del sito web, altrimenti se con Chrome la pagina viene restituita ( o è possibile visualizzarla con il browser ) e puoi iniziare il crawling probabilmente il server stava bloccando il nostro user-agent per una questione di sicurezza.
  • Se la pagina presenta l’errore 429 ​​significa che sono state fatte troppe richieste al server in un determinato periodo di tempo.

What to do:

Puoi visualizzare il tuo sito nel browser o questo mostra un messaggio di errore simile? In questo caso puoi abbassare la velocità di crawl e/o testare un user agent differente come Chrome o Googlebot.

Errore del server (5XX): il server non è riuscito a soddisfare una richiesta apparentemente valida. Questo può includere risposte comuni come 500 Internal Server Errors, 502 e 503 Server Unavailable. 

What to do:

  • Puoi vedere il tuo sito nel browser o è down? Se la pagina può essere vista, cambia user-agent e utilizza Chrome come user agent (Configurazione > User-Agent).