COME TROVARE I CONTENUTO DUPLICATI

0
486

Come più volte dichiarato da Google il contenuto è uno degli elementi più importanti a livello di ranking e la gestione di eventuali duplicazioni è una delle attività da considerare in ogni ottimizzazione Seo.

Il contenuto duplicato è uno dei problemi che più comunemente tarpa le ali di un progetto e deve essere ridotto al minimo per non sprecare il Crawling Budget.

L’obiettivo di un Seo specialist non si deve limitare a comprendere e ottimizzare le pagine identiche ma dovrebbe affinare l’intervento anche sui contenuti “simili” che potrebbero creare condizioni di “Cannibalizzazione delle query” creando assoluta inefficienza alla scansione del Motore di Ricerca.

Attraverso questo tutorial vediamo come Screaming Frog ti permette di scovare sia i contenuti duplicati esatti (con lo stesso hash), sia contenuti simili che potrebbero risultare con lo stesso “Search Intent” agli occhi di Google.

  • 1. Abilitare ‘Near Duplicates’ tramite ‘Config > Content > Duplicates’.

Screaming Frog, per impostazione predefinita identifica automaticamente le pagine duplicate esatte (le pagine duplicate presentano lo stesso “Hash”), mentre per identificare i contenuti simili devi abilitare l’opzione “Enable Near Duplicates”. Una volta attiva il Seo Spider considera come pagina “simile” ogni documento che presenti una corrispondenza minima del 90%. 

Questa soglia la puoi anche regolare in base all’affinamento più adatto al tuo progetto.

Di default il SEO Spider fa un controllo sulle pagine simili o duplicate solamente se sono ‘indicizzabili’ e non “canonicalizzate”; il consiglio è quello di deselezionare l’opzione ‘Only Check Indexable Pages For Duplicates – Controlla solo le pagine indicizzabili per i duplicati’, poiché questo potrebbe aiutarti a trovare aree di potenziale spreco di Crawler Budget.

Nota Bene: Di norma ti consiglio per progetti nuovi, in cui vai a gestire tutta la Key Research, di impostare la soglia al 50-60%, mentre su progetti con una certa storicità ad un minimo di 70% per essere certo che il Search Intent sia sempre univoco e ben marcato. 

Attraverso l’utilizzo della Search Console puoi controllare periodicamente la relazione Query-Landing Page e nel caso di cannibalizzazioni scegliere quale sia la landing più adeguata (verificando anche i dati di GA) a quello specifico Search Intent e rinnovare il contenuto delle pagine secondarie o, in certi casi rimuoverle.

  • 2. Definire l’area del contenuto da analizzare

Anche per questa task Screaming Frog è molto flessibile e ti permette di scegliere il focus su cui porre l’attenzione nella ricerca di contenuti duplicati o simili. 

Per impostazione di default il Seo Spider esclude automaticamente gli elementi della <nav> e del
<footer> per concentrarsi sul contenuto del corpo principale. Tuttavia, non tutti i siti web sono costruiti utilizzando questi elementi HTML5 ma il Seo Spider ti permette di ‘includere’ o ‘escludere’ dal tuo esame alcuni tag HTML,  classi o ID.

Per esempio se fai un crawl sul sito web di Screaming Frog ti accorgerai che presenta un menu mobile al di fuori dall’elemento “nav” ma, per impostazione di default, questo elemento viene comunque incluso nell’analisi del contenuto. In questo specifico caso potresti definire la classe del menu (‘mobile-menu__dropdown’) ed escluderla dall’esame per focalizzarti maggiormente sul contenuto principale.

  • 3. Esegui la scansione del sito web.
  • 4. Visualizza i duplicati nella scheda “Content”

Nella scheda “Content” hai a disposizione due 2 filtri:

  • ‘exact duplicates’ (contenuto identico).
  • ‘near duplicates’ (contenuto simile).

Durante la scansione questa tab si popola con i dati man mano che il crawl avanza ma presenta solo i “duplicati esatti”.

  • 5. Configurazione della Crawl Analysis 

Per popolare il filtro ‘Near Duplicates’, le colonne “Closest Similarity Match” e “No. Near Duplicates” devi configurare ed eseguire la Crawl Analysis. 

  • 6. Visualizza la scheda ‘Content’ e i filtri “Exact” e “Near”

Dopo aver eseguito l’analisi post crawl, il filtro “Near Duplicates”, le colonne “Closest Similarity Match” e “No. Near Duplicates” saranno popolate. 

Solo gli URL con contenuto superiore alla soglia di similarità selezionata conterranno dati, gli altri rimarranno vuoti. 

Nel caso riportato qui sotto, il sito di Screaming Frog presenta solamente due risorse con una soglia del 92% che andranno ottimizzate.

Per una valutazione più puntuale puoi ordinare i dati in base ai due filtri:

  • Exact Duplicates: identifica le pagine con uno “hash” identico.
    Molto utile per la gestione delle pagine principali e le pagine da “canonicalizzare”.
  • Near Duplicates: identifica le pagine con una soglia di “similarità” superiore al 90% o con un indice diverso se l’hai modificato tramite  “Config > Content > Duplicates” . 

In sintesi nella colonna “Closest Similarity Match” puoi visualizzare la percentuale di similarità mentre in “No. Near Duplicates” il numero di pagine coinvolte da questa somiglianza. 

  • 7. Visualizzare gli URL duplicati tramite la scheda ‘Dettagli duplicati”

Per i “duplicati esatti” è sufficiente spostarsi sulla colonna “hash” e ordinarli cliccando sull’intestazione per trovare tutte le corrispondenze.

Nell’esempio relativo al sito della BBC ogni URL ha un duplicato esatto perché presenta due versioni una con il “/” e una senza.

Per scoprire invece i  “quasi duplicati (simili)”, ti basta cliccare sulla tab “Duplicate Details” nella finestra in basso.

Nel caso sopra cliccando su un URL della finestra superiore ci sono 4 pagine che superano la soglia del 90% di similarità.

Il Seo Spider prevede anche un’anteprima dei contenuti quasi duplicati nella tab “Duplicate Details”  e permette una visione molto intuitiva delle parti testuali che differiscono le pagine in esame.

  • 8. Esportazione in blocco degli URL duplicati

Sia i duplicati esatti che i quasi duplicati possono essere esportati in blocco.

Bulk Export > Content > Exact Duplicates/ Near Duplicates