COME FARE UN CRAWLING DI SITI IN STAGING

0
281

I siti web in fase di staging di solito non possono essere scansionati dai Motori di Ricerca e dai crawler. Esistendo vari metodi per impedire il crawling ci sono diversi approcci o configurazioni di Screaming Frog da attuare per ottenere una scansione ed aggirare questi limiti.

  • 1. Robots.txt

Il caso più comune riguarda il file robots.txt che blocca la scansione. In questo caso il Seo Spider colleziona un solo URL , il record mostra il messaggio “Blocked by robots.txt” e lo stato è “Indexable”. Per oltrepassare questa barriera è sufficiente impostare “Ignore Robots.txt” da Config. > Robots.txt 

Un’alternativa è quella di configurare un robots.txt personalizzato tramite “Config > robots.txt > Custom” per rimuovere eventuali direttive “disallow” e aggiungere se necessario altre personalizzazioni che il Seo Spider deve seguire.

  • 2. Autenticazione

Nel caso in cui il server richieda l’autenticazione è possibile fornire username e password al Seo Spider per scansionare il sito.  

Autenticazione di base e digest

L’autenticazione di base e digest viene rilevata automaticamente dal Seo Spider quando si esegue la scansione del sito web.

Eseguendo la scansione del sito in fase di sviluppo appare una finestra pop-up di autenticazione, proprio come avviene in un browser web, chiedendo un nome utente e una password.

Inserendo le corrette credenziali il Seo Spider inizia il normale crawling delle pagine del sito web in staging.

Autenticazione Web Form

Se ci sono altri moduli web o aree che richiedono il login con i cookie per l’autenticazione, il Seo Spider permette agli utenti di accedere a questi moduli web all’interno del browser Chrome integrato nel tool. 

Per effettuare il login utilizzando l’autenticazione dei moduli web, clicca su “Configurazione > Autenticazione > Basato su moduli”. Quindi clicca sul pulsante ‘Aggiungi’, inserisci l’URL del sito su cui desideri eseguire il crawling e effettua il login dal browser.

IP Address

Alcune piattaforme di staging possono limitare l’accesso in base all’indirizzo IP.

Poiché il SEO Spider effettua il crawling locale dalla macchina da cui viene eseguito, è necessario fornire questo indirizzo IP per essere inclusi nella “whitelist”. 

Come configurare le impostazioni per scansionare i siti in fase di sviluppo

I siti in sviluppo possono rispondere alle richieste HTTP in modo diverso da quelli in un ambiente live, e spesso possono avere direttive del robot che richiedono ulteriori configurazioni nel SEO Spider.

Configurare la velocità di scansione

I siti web in staging sono generalmente più lenti e non possono sopportare lo stesso carico di un server di produzione. Se noti instabilità del sito ed errori di timeout o errori del server devi ridurre la velocità di scansione dello Spider. 

Oppure gestire il tempo di timeout e il tempo di AJAX timeout nel caso di scansioni con il rendering Javascript.

Nofollow

Per proteggere eventuali intromissioni dei BOT molti siti in sviluppo potrebbero presentare un meta robots tag “nofollow” in tutto il sito, o X-Robots-Tag nell’intestazione HTTP. Un “nofollow” è una direttiva molto diversa da un noindex, e indica a un crawler di non seguire alcun outlink da una pagina.

Nel caso presenti la condizione dell’esempio vai a “Config > Spider” e abilita “Follow Internal Nofollow” per scansionare gli outlink da queste pagine ed ottenere un Audit completo.

No Index

Un altro tag che puoi incontrare in un sito in staging è il noindex, che permette la scansione del crawler ma non la sua indicizzazione.  L’uso di noindex può essere visto sotto la scheda “Directives” e il filtro “noindex”. Quello che ti consiglio è di controllare che questo tag venga rimosso immediatamente alla messa online del sito web, troppe volte si vedono siti con il file robots.txt o il tag noindex ancora attivi anche se già pubblicati online.

Oltre agli aspetti legati alla messa online dovresti considerare che il Seo Spider scansiona le pagine con un noindex (come un normale BOT), ma vede queste pagine come ‘non indicizzabili’. Questo significa che per impostazione prefefinita lo Spider non considera le relative metriche nei filtri e non ti mette a disposizione elementi come i contenuti duplicati, o titoli di pagina mancanti, meta descrizioni ecc. quindi l’analisi potrebbe essere molto parziale.

La soluzione è quella di disabilitare “Ignore Non-Indexable URLs for On-Page Filters “ per una scansione completa del sito web di staging.

 Config > Spider > Advanced

None

Troppe volte la direttiva “None” viene sottovalutata e male interpretata pensando che significhi la mancanza di direttive invece la stessa è equivalente a “noindex, no follow”! 

Se fosse questo il caso devi seguire gli stessi passi descritti precedentemente.

confronta sito in Staging Vs Live

Grazie alle ultime release di Screaming Frog il Seo Spider puoi confrontare due crawls per vedere le differenze attraverso la funzione ‘URL Mapping’, che permette di confrontare due diverse strutture di URL, come un sito web di staging contro un ambiente di produzione o live.

Per confrontare lo staging con il sito web live, ti basta cliccare su “Mode > Compare” e selezionare i due crawls.

Per maggiori dettagli riguardanti l’URL Mapping ti consiglio di seguire l’articolo dedicata.