Custom Extraction: quando e come usarla

0
652
come usare l'XPath sull'Html con Screaming Frog

Oggi voglio approfondire la funzionalità Custom Extraction di Screaming Frog prendendo spunto da un tweet di Manel Jiménez @lolo_phoenix che arricchisce le possibili Custom Extraction con il nostro Seo Spider. Questo argomento lo abbiamo già trattato nell’articolo “Custom Extraction” ma vediamo alcune estrazioni davvero interessanti da mettere in pratica subito nei nostri Seo Audit Avanzati.

Prima di procedere un piccolo ripasso della sintassi e funzioni comuni di XPath:

SintassiDescrizione della Funzione
//Ricerca qualsiasi cosa nel documento
/Ricerca nella Root
@Ricerca un attributo specifico di un elemento
*Wildcard per ricercare ogni elemento
[]Trova uno specifico elemento
.Specifica l’elemento corrente
..Specifica l’elemento parente
OperatoreFunzione
starts-with(x,y)Controlla se x inizia con y
contains(x,y)Controlla se x contiene y
last()Trova l’ultimo “Item” in un set
count(XPath)Conta il numero di occorrenze nella XPath extraction

Come sfruttare Screaming Frog con le Custom Extraction?

Per utilizzare la funzione Custom Extraction è sufficiente cliccare su Configuration > Custom > Extraction e inserire gli Input da ricercare nel sito web.

inserimento nuova configurazione per la custom extraction

Di seguito una lista di elementi da poter estrarre dall’HTML:

XPathFunzione
//h1Estrazione di tutti gli heading H1
//h3[1]Estrazione del primo heading H3
//h3[2]Estrazione del secondo heading H3
//div/pEstrazione di ogni <p> contenuto in un <div>
//div[@class=’seo audit’]Estrae ogni <div> con classe “seo audit”
//p[@class=’seo audit’]Estrae ogni <p> con classe “seo audit”
//*[@class=’seo audit’]Estrae ogni elemento con classe “seo audit”
//ul/li[last()]Estrazione dell’ultimo <li> in una lista
//ol[@class=’seo’]/li[1]Estrazione del primo <li> in un <ol> con classe “seo”
count(//h2)Conta il numero di h2 in pagina (da utilizzare “Function Value”)
//a[contains(.,’order now’)]Estrae ogni link con ancora “order now”
//a[start-with(@title,’screaming frog club’)]Estrae ogni collegamento con un titolo che inizia con “screaming frog club”

Di seguito una lista di attributi da poter estrarre dall’HTML:

XPathFunzione
//@hrefEstrazione di tutti i link ipertestuali
//a[start-with(@href,’mailto’)]/@hrefEstrazione dei link che iniziano con “mail to”
//img[contains(@class,’aligncenter’)]/@srcEstrazione di tutte le sorgenti delle immagini
//link[@rel=’alternate’]Estrazione degli elementi con rel attribute impostato su “alternate”
//@hreflangEstrazione di tutti i valori delle hreflang

Vediamo ora come estrapolare la struttura della Breadcrumbs:

XPathFunzione
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop]/a/@hrefEstrazione di tutti i links della Breadcrumb
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop][1]/a/@hrefEstrazione del primo link della Breadcrumb
//*[contains(@itemtype,’BreadcrumbList’)]/*[@itemprop]Estrazione del nome della Breadcrumbs in modalità “Text”
count(//*
[contains(@itemtype,’BreadcrumbList’)]/*
[@itemprop])
Conteggio del numero di oggetti della breadcrumbs in modalità “Function value”

Utilizzo dell’ XPath negli Ecommerce con l’estrazione del “Product Schema”.

XPathFunzione
//*[@itemprop=’name’]/@contentRestituisce il nome del prodotto
//*[@itemprop=’description’]/@contentRestituisce la descrizione del prodotto
//*[@itemprop=’price’]/@contentRestituisce il prezzo del prodotto
//*[@itemprop=’priceCurrency’]/@contentRestituisce la valuta del prodotto
//*[@itemprop=’availability’]/@hrefEstrazione della disponibilità del prodotto
//*[@itemprop=’sku’]/@contentEstrazione dello SKU del prodotto

Utilizzo della Custom Extraction nelle Reviews

XPathFunzione
//*[@itemprop=’reviewCount’]Restituisce il numero di recensioni presenti
//*[@itemprop=’ratingValue’]Restituisce il valore in termini di Ranking
//*[@itemprop=’bestRating’]Estrazione del miglior punteggio delle recensioni
//*[@itemprop=’review’]/*[@itemprop=’name’]Estrazione del nome della recensione
//*[@itemprop=’review’]/*[@itemprop=’author’]Restituisce l’autore della recensione
//*[@itemprop=’review’]/*[@itemprop=’datePublished’]/@contentRestituisce la data della recensione
//*[@itemprop=’review’]/*[@itemprop=’reviewBody’]Restituisce il contenuto della recensione

La Custom Extraction applicata al “Local Business & Organization” Schema

XPathFunzione
//*[contains(@itemtype,’Organization’)]/*[@itemprop=’name’]Estrazione del nome dell’organizzazione
//*[@itemprop=’address’]/*[@itemprop=’streetAddress’]Estrazione della via
//*[@itemprop=’address’]/*[@itemprop=’addressLocality’]Estrazione dell’indirizzo
//*[@itemprop=’address’]/*[@itemprop=’addressRegion’]Estrazione della regione
//*[@itemprop=’telephone’]Restituisce il numero telefonico dell’organizzazione
//*[@itemprop=’sameAs’]/@hrefRestituisce i link “SameAs”

Estrazione personalizzata dell’ Article Schema.

XPathFunzione
//*[contains(@itemtype,’Article’)]/*[@itemprop=’headline’]Restituisce il titolo dell’articolo della pagina
//*[@itemprop=’author’]/*[@itemprop=’name’]/@contentEstrazione dell’autore
//*[@itemprop=’publisher’]/*[@itemprop=’name’]/@contentEstrazione del nome del publisher
//*[@itemprop=’datePublished’]/@contentRestituisce la data di pubblicazione dell’articolo
//*[@itemprop=’dateModified’]/@contentRestituisce la data di modifica dell’articolo

Abbiamo visto molti utilizzi della Custom Extraction con Screaming Frog, adesso il CLUB ti fa un regalo! Ecco qui la configurazione completa delle Reviews, Article, Breadcrumbs, Local e Products Schema già confezionate in una configurazione del Seo Spider.

La puoi scaricare da qui: Configurazione XPath Screaming Frog

Per utilizzare la configurazione segui questi semplici passi:

  1. Clicca sul link e scarica il file in formato “.seospider”
  2. Apri Screaming Frog e clicca su “File”
  3. Dalla voce del menu “File” clicca su “Configurazione” e su “Carica”.
  4. Esegui la tua scansione

Non dimenticare di personalizzare le sintassi degli XPath in base al tuo sito web ed esigenza.

Fonte articolo: https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/