COME SCANSIONARE UN SITO DI GRANDI DIMENSIONI

0
236
  • 1. SCEGLI LA MODALITÀ DI ARCHIVIAZIONE “DATABASE STORAGE”

Per gestire la scansione di un sito da milioni di URL la modalità “Memory Storage” con archiviazione sulla RAM non è la scelta consigliata, per cui il primo passo che ti consiglio è lo switch a “Database Storage”.

Per ottenere il massimo delle performance dal Seo Spider con questa modalità dovresti prevedere una scheda di memoria SSD interna o esterna se il tuo sistema supporta la modalità UASP. 

  • 2. INCREMENTA LA “MEMORY ALLOCATION”

Scelta la modalità “Database Storage” il secondo passo è quello di incrementare la memoria allocata.

Di seguito un confronto di performance in base al numero massimo di URL che possono essere crawlerati.

MEMORIA ALLOCATARAM MODESTORAGE MODE
8 Gb
(requisito minimo per siti grosse dimensioni RAM Mode)
200 mila URL
4 GB2-3 MILIONI DI URL
8 GB5 MILIONI DI URL
16 GB10 MILIONI DI URL

Questi requisiti sono solo dei riferimenti, parti sempre dall’idea che maggiore è la memoria allocata migliori saranno le performance del Seo Spider.

  • 3. SCEGLI QUALI ELEMENTI E ATTRIBUTI SCANSIONARE

Non sempre è necessario scansionare un intero sito quindi è buona norma adattare il crawl agli specifici focus dell’analisi in essere. Ricorda che più dati si raccolgono e più intensa sarà la richiesta di RAM. 

Per scegliere quali metriche scansionare e quali non includere puoi modificare direttamente le impostazioni del Seo Spider

Configurazione > Spider > Crawl

In base alla tipologia di analisi puoi scegliere se disabilitare la scansione e l’archiviazione dei seguenti elementi:

  • Images*; 
  • CSS*;
  • JavaScript*;
  • SWF*.

*In termini di memoria ha molto senso disabilitare queste risorse ma nel caso utilizzi la modalità di rendering JavaScript dovrai abilitarle per non penalizzare il rendering.

  • External Links;
  • Canonicals;
  • Pagination;
  • Hreflang.
  • AMP.

Altresì puoi disabilitare l’estrazione di alcuni elementi non essenziali come le “Meta Keyword” direttamente dalla schermata “Spider Configuration” o altri attributi che non siano strettamente necessari al momento dell’analisi scegliendo tra i “Page Details” (es. page title, word count, headings etc.), URL details, direttive o dati strutturati.

Oltre agli elementi sopra citati ti consiglio di disabilitare la funzione relativa alla posizione dei link nell’Html.

Config > Custom > Link Positions

La “Custom Link Position” memorizza l’XPath di ogni link trovato in un crawl per classificare la sua posizione (navigazione, barra laterale, piè di pagina ecc.) e richiede molta memoria per essere processata.

Altra best practice è quella di evitare la scansione di funzioni avanzate come le seguenti che possono essere incluse in una seconda fase di analisi:

  • Custom Search – Ricerca personalizzata.
  • Custom Extraction – Estrazione personalizzata.
  • Integrazione di Google Analytics.
  • Integrazione di Google Search Console.
  • Integrazione di PageSpeed Insights.
  • Spelling & Grammar – Ortografia e grammatica.
  • Integrazione di Link Metrics (Majestic, Ahrefs e Moz).
  • 4. ESCLUDI GLI URL NON NECESSARI

Per rendere la scansione maggiormente snella e meno impattante in termini di memoria puoi limitare la scansione ad aree specifiche del sito web ed escludere elementi come gli ordinamenti generati dalle “faceted navigation”, particolari parametri presenti sugli URL o URL infiniti con directory ripetute utilizzando la funzione “exclude”. 

Questa funzione attraverso espressioni RegEX ti permette di escludere gli URL che non desideri scansionare. Fai però attenzione che se gli URL esclusi contengono dei collegamenti ad altre pagine anche queste ultime non saranno crawlerate.

ESEMPIO


Per comprendere al meglio l’importanza della funzione “Exclude” prendiamo in esame uno scenario reale, come il sito web John Lewis. 

Utilizzando le impostazioni di default del Seo Spider, a causa dei numerosi ordinamenti, la scansione comprenderebbe una serie infinita di URL come da esempio qui sotto:

https://www.johnlewis.com/browse/men/mens-trousers/adidas/allsaints/gant-rugger/hymn/kin-by-john-lewis/selected-femme/homme/size=36r/_/N-ebiZ1z13yvxZ1z0g0g6Z1z04nruZ1z0s0laZ1z13u9cZ1z01kl3Z1z0swk1

Questa condizione è molto comune negli e-commerce che utilizzano le “faceted navigation“ per le marche, per il colore, la vestibilità dei pantaloni e altro ancora creando infinite combinazioni e appesantendo inesorabilmente il crawling.

Nel caso specifico ti basterà eseguire una scansione campionaria del sito web per individuare questa tipologia di modello di URL parametrato ed escluderlo. 

  • 5. ESEGUIRE UNA SCANSIONE SU SOTTOCARTELLE O SOTTODOMINI

Se il sito web è molto consistente, puoi considerare la scansione separata dei sottodomini o ancora più granulare di particolari sottocartelle. 

Per impostazione predefinita, il SEO Spider scansiona solo il sottodominio inserito, e tutti gli altri sottodomini incontrati sono trattati come link esterni apparendo nella finestra inferiore della scheda ‘Esternal’. 

È possibile scegliere di scansionare tutti i sottodomini, ma ovviamente questo richiederà più memoria.

Il Seo Spider può anche essere configurato per scansionare solamente una sottocartella inserendo l’URL della “Subfolder” con relativo percorso e disabilitando “check links outside of start folder – controlla i link fuori dalla cartella iniziale” e “crawl outside of start folder – scansiona fuori dalla cartella iniziale”.

Configurazione > Spider > Check links outside of start folder | Crawl outside of start folder

Ad esempio, ipotizziamo tu voglia scansionare solamente l’area blog del sito di Screaming Frog.

La prima attività è quella di identificare la sottocartella ed eseguire il crawler; che nel nostro caso sarà: https://www.screamingfrog.co.uk/blog/.

Nota Bene: per scansionare una sottocartella ricorda di aggiungere lo slash finale “/blog/” altrimenti il Seo Spider non la riconosce come tale. Lo stesso problema lo potresti avere se la versione con lo “/” viene reindirizzata verso la sua versione senza.

In questo secondo caso puoi usare la funzione “include” e utilizzare una regola RegEx per la scansione (ad esempio “.*blog.*”).

  • 6. CIRCOSCRIVERE LA SCANSIONE UTILIZZANDO “INCLUDE”

Oltre all’esclusione di aree e/o alla disabilitazione di elementi da scansionare e archiviare puoi optare di sfruttare la funzione “Include” che ti permette di limitare gli URL da scansionare tramite le espressioni RegEx. 

Per esempio, se vuoi scansionare solo le pagine che presentano “search” nella stringa dell’URL ti basta semplicemente includere la RegEx “.*search.*” nella funzione “include”.

Prendendo in esame il sito di Screaming Frog otterresti i seguenti risultati

  • 7. SCANSIONI E CAMPIONAMENTI

Un altro modo per risparmiare tempo e rendere la scansione meno impattante in termini di memoria è quella di lavorare su dei campionamenti del sito web attraverso:

Limit Crawl Total – Limita la scansione totale : identifica la soglia massima di pagine da scansionare complessivamente.

Limit Crawl Depth – Limita la profondità della scansione: limita la profondità di scansione alle pagine più prossime in termini di click alla pagina di partenza (o la home) per ottenere un campione di tutti i modelli.

Limit Max URI Length To Crawl – Lunghezza massima URL da scansionare: limita la scansione di URL fino ad un numero massimo di caratteri nella stringa evitando gli URL molto profondi.

Limit Max Folder Depth – Limita la profondità massima delle cartelle: limita la scansione in base alla profondità delle cartelle.

Limit Number of Query Strings – Limita il numero di stringhe di query: limita la scansione di parametri in base al numero di query string. Se imposti il limite delle stringhe di query a ‘1’, permetti al Seo Spider di scansionare URL che presentano al massimo un singolo parametro (?=colore per esempio) nella stringa evitando combinazioni infinite.