Seo Spider: I Report

0
348

Screaming Frog ha investito molto negli ultimi anni nell’aggiornare il Spider Tool e contestualmente sono cresciuti anche i “Report” a disposizione. Il tool ti permette di sbizzarrirti nelle esportazioni dei dati garantendo tutta una serie di documenti ad hoc per analizzare la maggior parte delle criticità in modo specifico. 

La lista dei documenti sono a tua disposizione nel menu principale e puoi salvarli in locale con formato ‘.csv’, ‘.xls’,’xlsx’ o in ’gsheet’ sfruttando Google Drive. Nell’ultimo caso li trovi nella cartella “Screaming Frog SEO Spider” di Drive.

CRAWL OVERVIEW REPORT

Questo rapporto ti fornisce i dati che trovi nella sidebar laterale del Seo Spider. 

Il documento rappresenta un riepilogo sintetico della scansione molto utile da utilizzare in prima istanza per una supervisione dall’alto di ciascuna delle schede e dei rispettivi filtri.


REDIRECTS

Questi documenti mettono il focus sui reindirizzamenti scoperti durante la scansione identificando l’origine del collegamento.

Al momento trovi tre diversi report a tua disposizione:

  • All Redirects: mostra tutti i singoli reindirizzamenti e segnala la presenza di eventuali catene di link.
  • Redirect Chains: comprende gli URL che presentano 2 o più reindirizzamenti consecutivi creando una pericolosa “Redirect Chain”.
  • Redirect and Canonical Chains: identifica gli URL con almeno 2 reindirizzamenti e catene di URL “canonical”.

I documenti “Redirect Chains” e “Redirect and Canonical Chains” sono molto utili per mappare le catene di “redirect”,“canonical” e situazioni di “Loop” permettendoti di identificare il numero di salti lungo il percorso e quali siano gli URL sorgente.  

In modalità Spider (Mode > Spider) questi rapporti ti mostrano tutti i redirect scoperti da un singolo hop in su. 

Il documento è diviso in colonne e comprende:

  1. il “numero di reindirizzamenti”.
  2. La tipologia di catena identificata:
    1. HTTP Redirect,
    2. JavaScript Redirect, 
    3. Canonical.
    4. etc.
  3. Se esistono cicli di reindirizzamenti (Loop).

Se il report non presenta record, significa che lo Spider non ha trovato loop o catene di redirect che devono essere ottimizzate.

I rapporti ‘Redirects’, ‘Redirect Chains’ e ‘Redirect & Canonical Chains’ li puoi anche scaricare nel caso di scansione in modalità elenco (Mode > List). In questo caso il documento mostrerà una riga per ogni URL fornito nella lista. 

Spuntando le opzioni “Always Follow Redirects – Segui sempre i Redirect” e “Always Follow Canonicals – Segui sempre i canonici” il Seo Spider continuerà a scansionare i redirect e i canonici in modalità elenco ignorando la profondità di scansione. In sintesi, seguirà tutti i passaggi fino alla destinazione finale. 

Nota Bene: i documenti relativi ai reindirizzamenti ti saranno particolarmente utili in fase di migrazione di un sito web per controllare la corretta redistribuzione del Ranking acquisito e non sprecare inutilmente Crawling Budget.


REPORTS CANONICAL

I documenti ‘Canonical Chains’ e ‘Non-Indexable Canonicals’ evidenziano errori e problemi con gli elementi di link canonici o implementazione dei canonici HTTP. 

  • 1. Il rapporto “Canonical Chains” evidenzia qualsiasi URL che ha più di 2 link canonici in una catena.
  •  

Esempio: 

  •  l’URL A è “canonicalizzato” e presenta un “canonical URL” verso l’URL B
  •  l’URL B è anch’esso “canonicalizzato” verso l’URL C.
  • 2. Il rapporto ‘Non-Indexable Canonicals’ evidenzia errori e problemi con i link canonici. In particolare, questo rapporto mostra tutti i link canonici che hanno come destinazione URL bloccati da robots.txt, presentano status code 3XX, 4XX o 5XX o qualsiasi cosa diversa da una risposta 200 ‘OK’.

Questo rapporto fornisce anche dati su tutti gli URL che sono stati scoperti dal Seo Spider tramite il link  “canonical” ma non presentano collegamenti (internal link) dal sito. 

Questo dato sarà a disposizione nella colonna ‘unlinked’ con la dicitura ‘true’.


PAGINATION REPORTS

Il Spider Seo prevede due report dedicati alla paginazione:

  • “Non-200 Pagination URLs”
  • “Unlinked Pagination URLs”

Questi due documenti sono molto utili per evidenziare errori e criticità con gli attributi “rel=prev” e “rel=next” delle paginazioni. 

Consultando “Non-200 Pagination URLs” sei in grado di identificare ogni URL con gli attributi “rel=prev” e “rel=next” che richiamano risorse con uno status code diverso da 200.

Il filtro “Unlinked Pagination URLs” ti aiuterà a definire tutti gli url che sono stati scoperti dallo Spider Seo grazie agli attributi “next/prev” ma che non presentano alcun collegamento (link) interno al sito web.

Al momento della guida questi attributi non vengono più considerati da Google ma rimangono ancora utilizzati dagli altri Motori di Ricerca. 


HREFLANG REPORTS

Il tag Hreflang permette a Google di conoscere le diverse versioni linguistiche di una pagina web e di restituire la versione più appropriata al navigatore in base al suo browser.

Screaming Frog dedica 7 documenti da poter scaricare ognuno con un focus diverso sull’attributo:

  • All Hreflang URLs: questo rapporto è il più completo e colleziona tutti gli URLs & Hreflang URLs includendo le indicazioni per regione e lingua scoperti durante la fase di crawl.
  • Non-200 Hreflang URLs: attraverso questo documento sei in grado di scoprire quali sono le pagine che comprendono collegamenti Hreflang verso pagine con status code diverso da 200 (no response, blocked by robots.txt, 3XX, 4XX or 5XX responses).
  • Unlinked Hreflang URLs: documento che rileva tutti gli URL scoperti tramite collegamento “Hreflang” ma che non presentano nemmeno un Hyperlink nel sito (es. Orphan Pages).
  • Missing Confirmation Links: attraverso questo rapporto sei in grado di individuare quali siano gli URL a cui manca il “Confirmation Links”. Ad esempio la pagina A presenta un hreflang verso la pagina B e informa il Bot del Motore di Ricerca che A e B sono due versioni linguistiche dello stesso contenuto ma B non ha un hreflang verso la pagina A creando incongruenza.
  • Inconsistent Language Confirmation Links: questo report mostra le pagine di conferma che usano codici di lingua incoerenti e diversi per lo stesso contenuto.
  • Non Canonical Confirmation Links: questo documento mostra gli URLs che presentano l’hreflang con destinazione verso elementi “non canonical”. Se decidi di “canonicalizzare” un elemento stai informando lo Spider che quello specifico contenuto ha una versione primaria “Canonical” quindi nel tuo “hreflang”avresti dovuto inserire quella versione. 
  • Noindex Confirmation Links: rapporto ideale per scovare URLs che presentano il tag Hreflang verso risorse con attributo “No index”. Anche in questo caso inviando il Bot verso risorse “Non indicizzabili” si crea un enorme incongruenza fra la scelta di inibire un contenuto e quella di invitarlo a servire proprio quell’elemento come versione linguistica principale.

ORPHAN PAGES REPORT

Le pagine orfane rappresentano gli URL che non ricevono alcun collegamento interno da altre pagine del sito web e non sono raggiungibili dal crawler perché isolate.

Il rapporto “Orphan Pages” fornisce un elenco di URL raccolti tramite la connessione tra il Seo Spider e le API di Google Analytics, Google Search Console (Search Analytics API) o scovati tramite Sitemap XML che non trovano alcun riscontro con gli URL scoperti durante la scansione. 

In sintesi ti vengono serviti gli URLs non raggiungibili dal Seo Spider per la mancanza di link da seguire o che presentano l’attributo “no follow”. 

Ma se non hanno collegamenti perché esistono nei database di Google Analytics o Search Console? 

Probabilmente sono stati indicizzati con la versione precedente del sito o da altre fonti come XML Sitemaps, oppure esistono dei referral che le richiamano. 

Per collezionare dati sulle Orphan Pages è sufficiente configurare le API mediante le configurazioni del Seo Spider.

Config > API Access > Scegliere le API da connettere >Connect to new Account (o connessione verso account configurati in precedenza)

Alla conclusione della scansione è indispensabile utilizzare la “Crawl Analysis” per popolare con i dati la scheda relativa.

Le fonti a disposizione per il controllo delle pagine orfane sono:

  • GA: l’URL è stato scoperto tramite l’API di Google Analytics.
  • GSC: l’URL è stato scoperto in Google Search Console, dalla Search Analytics API.
  • Sitemap: l’URL è stato scoperto tramite la Sitemap XML.
  • GA & GSC & Sitemap: l’URL è stato scoperto in Google Analytics, Google Search Console & XML Sitemap.

Best practice: per ottimizzare la tua analisi Seo con le API di Google Analytics ti consiglio di scegliere come dimensione “Landing Page” e come segmento “Traffico organico” così da ottenere dati maggiormente rilevanti ed evitare pagine di login, pagina di carrello e-commerce etc. 


REPORT INSECURE CONTENT

Questo rapporto è molto utile perché ti segnala gli URL che presentano contenuto ritenuto insicuro e ti permette di evitare gli avvertimenti sulla sicurezza dei Browser che potrebbero allontanare il navigatore. 

Il documento “insecure Content” ti presenta tutti gli URL sicuri (HTTPS) che hanno elementi insicuri con protocollo HTTP come i link interni, immagini, JS, CSS, SWF o immagini esterne su un CDN, profili sociali ecc. 

Il report diviene molto utile soprattutto in fase di migrazione per avere una visione completa sulle potenziali criticità.

Ecco un esempio del file in cui le destinazioni delle immagini hanno protocollo “http” e non vengono considerate attendibili dallo Spider Tool.


REPORT SUI DATI STRUTTURATI

Come ben sai i dati strutturati rivestono un ruolo informativo per il Motore di Ricerca e se gestiti correttamente, garantiscono degli enormi benefici in termini di visibilità grazie alle diverse features del Motore di Ricerca.

Screaming Frog ti mette a disposizione 4 reports per valutare ed ottimizzare eventuali criticità di convalida dei “Structured Data”:

  • Validation Errors & Warnings Summary: aggrega i dati strutturati in base agli errori di convalida unici e agli avvertimenti scoperti mostrando il numero di URL interessati da ogni criticità, con degli URL campionari che identificano il problema specifico.
  • Validation Errors & Warnings: visualizza tutti gli errori di convalida dei dati strutturati in modo granulare per ogni URL includendo il nome della proprietà (Organization etc), il formato (JSON-LD etc), la gravità del problema (errore o avviso), il tipo di convalida (Google Product etc) e il messaggio relativo del problema (esempio: /review property is required).
  • Google Rich Results Features Summary: aggrega i dati per “Google Rich Results Features” rilevati in un crawl mostrando il numero di URL che presentano ogni singola caratteristica.
  • Google Rich Results Features: mappa in modo capillare ogni URL in base alle singole caratteristiche disponibili e mostra quali sono state rilevate per ogni URL.

REPORT PAGESPEED REPORTS

Questo report si basa sulle API di Page speed Insight e fornisce tutti i principali indicatori sul tempo di caricamento delle pagine web permettendo una diagnosi molto precisa su eventuali blocchi o cause che ostacolano le performance.

Config > API Access >  Pagespeed Insights

  • PageSpeed Opportunities Summary: riassume tutte le opportunità uniche scoperte nel sito, il numero di URL interessati e il risparmio potenziale medio e totale in termini di dimensioni e millisecondi per definire la priorità di intervento.
  • CSS Coverage Summary: determina un potenziale risparmio di tempo se viene rimosso il codice inutilizzato di ogni CSS che viene caricato nel sito.
  • Riepilogo copertura JavaScript: evidenzia quanto di ogni file JS è inutilizzato durante la scansione e il potenziale risparmio eliminando il codice inutilizzato caricato.

REPORT HTTP HEADER SUMMARY

Questo  documento restituisce una vista aggregata di tutte le intestazioni di risposta HTTP scoperte durante una scansione. Mostra ogni intestazione unica  di risposta HTTP e il numero di URL unici che hanno risposto con l’intestazione.

Per popolare i dati con le “intestazioni HTTP” devi abilitare la relativa funzione.

Config > Spider > Estrazione

I dettagli più specifici sugli URL e intestazioni li puoi trovare nella scheda “HTTP Headers” della finestra inferiore e tramite l’esportazione del documento “All HTTP Headers”.

Bulk Export > Web > All HTTP Headers

In alternativa, puoi interrogare le intestazioni HTTP direttamente nella scheda “Internal”, dove vengono aggiunte in colonne uniche separate.


COOKIE SUMMARY

Il rapporto “Cookie Summary” mostra una vista aggregata dei cookie unici scoperti durante una scansione, considerando il loro nome, dominio di riferimento, la scadenza, i valori di sicurezza e l’HttpOnly. 

Viene visualizzato anche il numero di URL su cui ogni cookie unico è stato emesso. 

Per utilizzare questo rapporto è sufficiente abilitare l’estrazione dei “cookie”.

Config > Spider > Extraction

Non dimenticare di abilitare anche la modalità di rendering JavaScript per una visione accurata dei cookie che vengono caricati sulla pagina utilizzando JavaScript o tag di immagini pixel.

Questo rapporto aggregato è estremamente utile per essere conforme con il GDPR sulla privacy. 

Puoi consultare ulteriori dettagli sulla scheda “Cookies” della finestra inferiore e tramite l’esportazione “All Cookies”.

Bulk Export > Web > All Cookies


CRAWL PATH REPORT

Il rapporto “Crawl Path Report” non lo trovi nel menu principale a differenza dei precedenti.

Il documento è disponibile cliccando con il tasto destro del mouse su un URL della finestra superiore del Seo Spider e selezionando l’opzione “esporta”.

Questo rapporto mostra il percorso più breve che il SEO Spider ha seguito durante il crawl per scoprire l’URL. 

Questa informazione ti può essere molto utile per le pagine con un “Crawl Depth” molto profondo e ti evita di dover visualizzare gli ‘inlink’ di molti URL per scoprire la sorgente originale; una sua applicazione potrebbe rientrare nella diagnostica degli URL infiniti causati da plugin o calendari periodici.

Il rapporto lo devi consultare dal basso verso l’alto. Il primo URL in fondo alla colonna ‘source’ è il primo URL scansionato (con un livello ‘0’). 

La colonna ‘destination’ invece ti mostra quali URL sono stati scansionati successivamente, e questi costituiscono i conseguenti URL ‘sorgente’ per il livello successivo (1) e così via, verso l’alto.

Il primo URL della colonna ‘destination’, all’inizio del rapporto, sarà l’URL del rapporto del percorso di scansione.