WEB SCRAPING & CUSTOM EXTRACTION

0
187

Vediamo come poter utilizzare Screaming Frog per fare Web Scraping utilizzando la funzione Custom Extraction (Ricerca avanzata). 

Attraverso questa funzionalità sei in grado di recuperare qualsiasi dato HTML da una pagina web mediante CSSPath, XPath e RegEX. 

L’estrazione viene eseguita sull’HTML statico degli URL scansionati dal SEO Spider che rispondono con uno status code 200 ‘OK’. 

Se vuoi fare delle estrazioni da dati renderizzati è possibile abilitare la modalità “Javascript Rendered”.

  • 1. Configurazione della Custom Extraction

Per impostare la tua ricerca personalizzata vai su Configuration > Custom > Extraction.

Attraverso questa funzione sei in grado di impostare fino a 100 richieste di estrazione dati personalizzate.

  • 2. Seleziona il percorso CSS, XPath o Regex da utilizzare per lo scraping

Il Seo Spider offre tre opportunità di scraping dei dati nei siti web:

  • XPath: attraverso XPath sei in grado di selezionare i nodi da un documento dove eseguire un’interrogazione usando i selettori XPath, compresi gli attributi.
  • CSS Path: questa opzione è la più veloce fra i metodi menzionati e permette di fare scraping usando i selettori CSS Path.
  • Regex: questa interrogazione di dati utilizza le espressioni regolari RegEx e viene consigliata per usi avanzati come lo scraping di commenti HTML o JavaScript in linea.

Optando per XPath o CSS Path per interrogare l’HTML, puoi scegliere tra diversi filtri del Seo Spider:

  • Extract HTML Elements: raccoglie le informazioni dell’elemento selezionato e tutto il suo contenuto HTML interno.
  • Extract Inner HTML: raccoglie il contenuto HTML interno dell’elemento selezionato. Se, ad esempio l’elemento selezionato contiene altri elementi HTML, anche questi saranno inclusi.
  • Extract Text: raccoglie il contenuto testuale dell’elemento selezionato e del suo sotto elemento.
  • Function Value: restituisce il numero complessivo dell’elemento richiesto, ad esempio se cerchi quanti h3 sono presenti in una pagina puoi utilizzare “count(//h3)”.
  • 3. Inserisci la tua sintassi

Una volta scelta la modalità di scraping non ti resta che definire la sintassi di estrazione. Per trovare il relativo percorso CSS o Xpath puoi aprire semplicemente la pagina web in Chrome e ‘ispezionare l’elemento desiderato, quindi fare clic con il pulsante destro del mouse e copiare il relativo percorso di selezione fornito.

Esempio:

Prendiamo in esame il blog di Screaming Frog.

Apri qualsiasi post del blog in Chrome, clicca con il tasto destro e “ispeziona l’elemento” sul nome dell’autore. 

Clicca con il tasto destro del mouse sulla linea HTML pertinente (con il nome dell’autore), copia il percorso CSS o XPath pertinente e incollalo nel rispettivo campo del Seo Spider. 

Se la sintassi inserita è valida (.author-details-social>a) vedrai una spunta verde accanto al tuo input, altrimenti sarà presente un warning con una croce rossa che identifica che la sintassi non è considerata corretta. 

Completata questa operazione ti basta cliccare il tasto “ok” ed avviare il crawl.

Per approfondire sui selettori CSS e su XPath ti consiglio di seguire w3schools.

Scansiona il sito web

Inserita la sintassi e convalidata non ti resta che eseguire la scansione del sito web per iniziare lo scraping.

Visualizza i dati dello scraping nella scheda “Custom Extraction”

I dati del web scraping sono a tua disposizione in tempo reale durante la scansione, nella scheda ‘Custom Extraction’, e nella tab “Internal”.

Nel nostro esempio è stata avviata una scansione completa di un sito web ma se vuoi fare scraping da un elenco specifico di URL puoi decidere di utilizzare la modalità di scansione “List”.

I campi di applicazione sono infiniti e dipendono dalla tipologia di analisi in essere, questa funzionalità può rivelarsi molto utile ad esempio per collezionare l’ID di Analytics o GTM, i social meta tags, i valori degli attributi Hreflang, i prezzi dei prodotti di un ecommerce, alcuni prezzi scontati etc.

LEAVE A REPLY

Please enter your comment!
Please enter your name here