CRAWLING DI UN SITO PROTETTO DA PASSWORD

0
443

Nella vita di un Seo capita spesso di dover analizzare siti web in staging o dover scansionare siti privati che necessitano di password per la visualizzazione e scansione.

Per accompagnarti attraverso questa tipologia di diagnosi ti viene in aiuto Screaming Frog che, dalla versione 7.0 del Seo Spider, ha introdotto la funzione “web form authentication”. 

Prima di procedere con il crawl però vediamo quali siano le potenziali controindicazioni di questa funzione e come risolverle per una scansione a prova di errore.

  • 1. Gestire le credenziali per il Seo Spider

Questa nuova opzione è molto potente ma deve essere gestita con assoluta responsabilità in quanto, se lo Spider viene autenticato come admin del sito web, farà click su ogni link presente nelle pagine ed essendo loggato i click potrebbero anche interessare il logout, la creazione di articoli, installazione plugin o nel caso più estremo la cancellazione dei dati. 

Per questo motivo è fondamentale predisporre l’autenticazione con delle limitazioni nelle credenziali, lasciando permessi di sola lettura e senza alcun permesso di “scrittura sul sito”. 

Se analizzi CMS comuni come WordPress, Drupal o Joomla l’idea migliore è quella di creare un utente dedicato con permessi da “sottoscrittore”.

  • 2. Utilizzare la funzione “Exclude”

È buona norma anche utilizzare la funzione “Exclude” su cartelle che potrebbero modificare il sito in produzione o privato; nel caso di wordpress potresti escludere dal crawling qualsiasi elemento in “/wp-admin/”.

Per escludere ad esempio la cartella dedicata all’admin e magari il logout puoi predisporre le seguenti espressioni RegEX per il Seo Spider.

http://example.com/wp-login\.php\?action=logout.*
http://example.com/wp-admin/.*
  • 3. Configurare le Autenticazioni

Una volta messo in sicurezza il sito da analizzare e configurato le esclusioni, puoi accedere al sito web selezionando “Authentication” dal menu principale (Configuration), scegliendo l’opzione “Form Based” e cliccando sul pulsante ‘Aggiungi’. 

Andando avanti con la procedura ti sarà richiesta l’immissione dell’URL da scansionare e un browser si aprirà automaticamente permettendoti di inserire le tue credenziali.

Attraverso questa opzione sarai in grado ad esempio di correggere prima della messa online tutte le criticità riscontrate ma, come detto ad inizio dell’articolo, devi porre la massima attenzione alla sicurezza del sito web ed evitare scorribande incontrollate del crawl!!