Oggi voglio approfondire la funzionalità Custom Extraction di Screaming Frog prendendo spunto da un tweet di Manel Jiménez @lolo_phoenix che arricchisce le possibili Custom Extraction con il nostro Seo Spider. Questo argomento lo abbiamo già trattato nell’articolo “Custom Extraction” ma vediamo alcune estrazioni davvero interessanti da mettere in pratica subito nei nostri Seo Audit Avanzati.
Prima di procedere un piccolo ripasso della sintassi e funzioni comuni di XPath:
Sintassi | Descrizione della Funzione |
---|---|
// | Ricerca qualsiasi cosa nel documento |
/ | Ricerca nella Root |
@ | Ricerca un attributo specifico di un elemento |
* | Wildcard per ricercare ogni elemento |
[] | Trova uno specifico elemento |
. | Specifica l’elemento corrente |
.. | Specifica l’elemento parente |
Operatore | Funzione |
---|---|
starts-with(x,y) | Controlla se x inizia con y |
contains(x,y) | Controlla se x contiene y |
last() | Trova l’ultimo “Item” in un set |
count(XPath) | Conta il numero di occorrenze nella XPath extraction |
Come sfruttare Screaming Frog con le Custom Extraction?
Per utilizzare la funzione Custom Extraction è sufficiente cliccare su Configuration > Custom > Extraction e inserire gli Input da ricercare nel sito web.

Di seguito una lista di elementi da poter estrarre dall’HTML:
XPath | Funzione |
---|---|
//h1 | Estrazione di tutti gli heading H1 |
//h3[1] | Estrazione del primo heading H3 |
//h3[2] | Estrazione del secondo heading H3 |
//div/p | Estrazione di ogni <p> contenuto in un <div> |
//div[@class=’seo audit’] | Estrae ogni <div> con classe “seo audit” |
//p[@class=’seo audit’] | Estrae ogni <p> con classe “seo audit” |
//*[@class=’seo audit’] | Estrae ogni elemento con classe “seo audit” |
//ul/li[last()] | Estrazione dell’ultimo <li> in una lista |
//ol[@class=’seo’]/li[1] | Estrazione del primo <li> in un <ol> con classe “seo” |
count(//h2) | Conta il numero di h2 in pagina (da utilizzare “Function Value”) |
//a[contains(.,’order now’)] | Estrae ogni link con ancora “order now” |
//a[start-with(@title,’screaming frog club’)] | Estrae ogni collegamento con un titolo che inizia con “screaming frog club” |
Di seguito una lista di attributi da poter estrarre dall’HTML:
XPath | Funzione |
---|---|
//@href | Estrazione di tutti i link ipertestuali |
//a[start-with(@href,’mailto’)]/@href | Estrazione dei link che iniziano con “mail to” |
//img[contains(@class,’aligncenter’)]/@src | Estrazione di tutte le sorgenti delle immagini |
//link[@rel=’alternate’] | Estrazione degli elementi con rel attribute impostato su “alternate” |
//@hreflang | Estrazione di tutti i valori delle hreflang |
Vediamo ora come estrapolare la struttura della Breadcrumbs:
XPath | Funzione |
---|---|
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop]/a/@href | Estrazione di tutti i links della Breadcrumb |
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop][1]/a/@href | Estrazione del primo link della Breadcrumb |
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop] | Estrazione del nome della Breadcrumbs in modalità “Text” |
count(//* [contains(@itemtype,’BreadcrumbList’)]/* [@itemprop]) | Conteggio del numero di oggetti della breadcrumbs in modalità “Function value” |
Utilizzo dell’ XPath negli Ecommerce con l’estrazione del “Product Schema”.
XPath | Funzione |
---|---|
//*[@itemprop=’name’]/@content | Restituisce il nome del prodotto |
//*[@itemprop=’description’]/@content | Restituisce la descrizione del prodotto |
//*[@itemprop=’price’]/@content | Restituisce il prezzo del prodotto |
//*[@itemprop=’priceCurrency’]/@content | Restituisce la valuta del prodotto |
//*[@itemprop=’availability’]/@href | Estrazione della disponibilità del prodotto |
//*[@itemprop=’sku’]/@content | Estrazione dello SKU del prodotto |
Utilizzo della Custom Extraction nelle Reviews
XPath | Funzione |
---|---|
//*[@itemprop=’reviewCount’] | Restituisce il numero di recensioni presenti |
//*[@itemprop=’ratingValue’] | Restituisce il valore in termini di Ranking |
//*[@itemprop=’bestRating’] | Estrazione del miglior punteggio delle recensioni |
//*[@itemprop=’review’]/*[@itemprop=’name’] | Estrazione del nome della recensione |
//*[@itemprop=’review’]/*[@itemprop=’author’] | Restituisce l’autore della recensione |
//*[@itemprop=’review’]/*[@itemprop=’datePublished’]/@content | Restituisce la data della recensione |
//*[@itemprop=’review’]/*[@itemprop=’reviewBody’] | Restituisce il contenuto della recensione |
La Custom Extraction applicata al “Local Business & Organization” Schema
XPath | Funzione |
---|---|
//*[contains(@itemtype,’Organization’)]/*[@itemprop=’name’] | Estrazione del nome dell’organizzazione |
//*[@itemprop=’address’]/*[@itemprop=’streetAddress’] | Estrazione della via |
//*[@itemprop=’address’]/*[@itemprop=’addressLocality’] | Estrazione dell’indirizzo |
//*[@itemprop=’address’]/*[@itemprop=’addressRegion’] | Estrazione della regione |
//*[@itemprop=’telephone’] | Restituisce il numero telefonico dell’organizzazione |
//*[@itemprop=’sameAs’]/@href | Restituisce i link “SameAs” |
Estrazione personalizzata dell’ Article Schema.
XPath | Funzione |
---|---|
//*[contains(@itemtype,’Article’)]/*[@itemprop=’headline’] | Restituisce il titolo dell’articolo della pagina |
//*[@itemprop=’author’]/*[@itemprop=’name’]/@content | Estrazione dell’autore |
//*[@itemprop=’publisher’]/*[@itemprop=’name’]/@content | Estrazione del nome del publisher |
//*[@itemprop=’datePublished’]/@content | Restituisce la data di pubblicazione dell’articolo |
//*[@itemprop=’dateModified’]/@content | Restituisce la data di modifica dell’articolo |
Abbiamo visto molti utilizzi della Custom Extraction con Screaming Frog, adesso il CLUB ti fa un regalo! Ecco qui la configurazione completa delle Reviews, Article, Breadcrumbs, Local e Products Schema già confezionate in una configurazione del Seo Spider.
La puoi scaricare da qui: Configurazione XPath Screaming Frog
Per utilizzare la configurazione segui questi semplici passi:
- Clicca sul link e scarica il file in formato “.seospider”
- Apri Screaming Frog e clicca su “File”
- Dalla voce del menu “File” clicca su “Configurazione” e su “Carica”.
- Esegui la tua scansione
Non dimenticare di personalizzare le sintassi degli XPath in base al tuo sito web ed esigenza.
Fonte articolo: https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/