Web scraping, una tecnica per estrarre dati dai siti web. Diffuso tra aziende e piattaforme digitali, può trasformarsi in una violazione se usato senza regole.
I dati sono l’oro del XXI secolo. E come l’oro, c’è chi li scava, li raccoglie e li trasforma. Ma cosa succede quando a farlo non è una persona, bensì un software di scraping capace di esplorare ed estrarre in automatico informazioni da migliaia di pagine web in pochi minuti?
Cosa significa “web scraping”?
Il termine web scraping indica:
“Un processo automatizzato di estrazione di dati da siti web, effettuato mediante software in grado di leggere e prelevare informazioni strutturate direttamente dalle pagine HTML.”
Tale tecnica si distingue dal web crawling, che, invece, ha lo scopo di esplorare e indicizzare le pagine web per conto dei motori di ricerca. Se il primo ha finalità orientate alla raccolta e rielaborazione dei dati, il secondo svolge una funzione di mappatura e archiviazione per fini di navigabilità e indicizzazione.
Quando si parla di scraping, si fa riferimento a un’attività che prevede l’interrogazione dei server di un sito tramite richieste HTTP per l’estrazione di informazioni. In altre parole, è come se un programma “leggesse” le pagine web così come le vede un utente, ma lo facesse in modo automatizzato e ripetitivo.
Non tutte le forme di scraping sono uguali. Esistono due macro-categorie. Lo scraping strutturato, che opera su siti con una struttura di dati ordinata e prevedibile, e lo scraping semantico, che cerca di interpretare il significato dei contenuti analizzati, spesso impiegando tecniche di intelligenza artificiale per riconoscere relazioni tra parole.
Scopi del web scraping: chi lo usa e per farne cosa
Il web scraping viene usato da soggetti, pubblici e privati, per finalità che spaziano dal business alla ricerca, dal marketing all’analisi dei dati.
“Il suo impiego è trasversale a settori diversi, accomunati dalla necessità di accedere, analizzare e rielaborare in forma strutturata grandi volumi di dati reperibili online.”
Uno degli esempi di utilizzo del web scraping da parte delle aziende più frequenti riguarda il settore dell’ e-commerce.
“Per esempio, i comparatori di prezzo si basano su scraping sistematico per rilevare in tempo reale i costi di prodotti identici offerti da diversi venditori.”
Nel settore travel, lo scraping è usato per raccogliere e confrontare offerte su voli, hotel o pacchetti vacanza. Le agenzie di viaggio online costruiscono il loro modello di business proprio sull’accesso costante e automatico ai dati di disponibilità e prezzo pubblicati da compagnie aeree, alberghi e tour operator.
L’ambito giornalistico usa lo scraping per analizzare fenomeni pubblici attraverso i contenuti diffusi sui social media, nei forum o nei siti d’informazione. Lo scraping di dati consente a giornalisti, analisti politici e studiosi di accedere a tendenze o eventi con una tempestività impossibili da ottenere con metodi tradizionali.
Infine, non è raro che lo scraping venga impiegato in ambiti meno leciti. Alcune imprese lo utilizzano per scopi di lead generation, cioè per raccogliere indirizzi e-mail o numeri di telefono pubblicati su siti web, con l’intento di costruire database per campagne promozionali non richieste.
Come funziona il web scraping passo dopo passo
Tutto inizia con l’invio di una richiesta HTTP. Il software, spesso un bot, simula l’azione di un browser e interroga il server del sito da cui si intende raccogliere informazioni.
Una volta ricevuto il contenuto HTML della pagina, entra in gioco il parsing del DOM. Il Document Object Model è la struttura gerarchica della pagina web: ogni elemento (testo, immagine, link) è un nodo che può essere navigato e analizzato.
Un aspetto determinante è la gestione delle sessioni e dei cookie.
“Alcuni siti richiedono una sessione autenticata per accedere a determinati contenuti: ciò comporta che lo scraper debba saper gestire le credenziali, mantenere attiva la sessione e aggiornare i cookie come farebbe un utente reale.”
Altrettanto importante è la regolazione della frequenza delle richieste. Invii troppo ravvicinati possono generare alert di sicurezza e blocchi automatici: per questo si ricorre spesso a rotazioni di IP, proxy dinamici o servizi che offrono reti di anonimizzazione.
I sistemi più evoluti di scraping impiegano headless browsers, come Puppeteer o Selenium, capaci di eseguire codice JavaScript proprio come farebbe un browser visibile. Per evitare che il bot venga identificato, si usano anti-detect measures: tecniche per mascherare l’impronta digitale del browser, modificare gli user-agent, randomizzare i comportamenti e rendere ogni sessione unica.
Uno degli ostacoli più frequenti è rappresentato dai sistemi anti-bot, come CAPTCHA o challenge JavaScript. Anche qui le soluzioni sono molteplici, dai servizi esterni di risoluzione automatica, fino all’inserimento di logiche di attesa e interazione artificiale per simulare l’azione umana.
Il risultato è un sistema capace di acquisire e archiviare dati da fonti eterogenee. In questo senso, la Cassazione ha affermato che la ripetizione sistematica di accessi a un sistema informatico, anche se aperto al pubblico, può costituire un uso improprio quando finalizzata all’estrazione di dati protetti. (Cass. Civ. sent. n. 3952/2023).
Quadro legale: cosa dice la legge in Italia, UE e USA
Il web scraping si muove su un terreno giuridico complesso e multilivello. Il primo livello è quello del GDPR, applicabile ogni volta che il web scraping coinvolge dati personali di cittadini UE.
“Il regolamento impone che qualsiasi trattamento, inclusa l’estrazione automatizzata, sia fondato su una base giuridica valida: consenso, obbligo legale, esecuzione contrattuale, legittimo interesse, tra le altre.”
Il soggetto che effettua lo scraping diventa data controller ai sensi dell’art. 4, par. 7, con tutti gli obblighi che ne derivano: informativa agli interessati, limitazione della finalità, minimizzazione, sicurezza e accountability. La profilazione automatizzata, poi, è soggetta a ulteriori vincoli, soprattutto se ha effetti giuridici rilevanti sull’interessato. È proprio su questi temi che il Garante italiano, nel documento del maggio 2024, ha pubblicato le linee guida sullo scraping di dati online per finalità di intelligenza artificiale.
Un altro fronte giuridico riguarda i diritti sui database. La direttiva 96/9/CE riconosce tutela al costitutore di una banca dati che ha investito risorse nella sua creazione. Se lo scraping comporta un prelievo sistematico di contenuti da un database protetto, può integrare una violazione del diritto. Non è necessario che i dati siano riservati: ciò che rileva è il valore economico del database e lo sforzo organizzativo per costruirlo.
Il profilo contrattuale costituisce il quarto perimetro giuridico. I termini d’uso di molti siti web vietano l’uso di tecniche di scraping. In caso di scraping in violazione dei termini d’uso, si possono configurare responsabilità contrattuali o extracontrattuali, specialmente se l’attività è finalizzata a competere sullo stesso mercato.
Come difendersi dallo scraping
Il primo fronte di difesa è quello tecnico. Il file robots.txt, indicano le aree del sito inibite alla scansione automatica. I rate limits, cioè la limitazione del numero di richieste consentite per indirizzo IP, aiutano a prevenire accessi massivi. Invece, tecniche come il fingerprint detection consentono di distinguere comportamenti umani da bot automatizzati, grazie all’analisi delle caratteristiche del browser, dei movimenti del mouse o della sequenza di interazioni.
Oltre alla difesa tecnica, occorre predisporre anche strumenti legali, che tutelino il contenuto del sito e ne regolino l’accesso. Le clausole dei Termini di Servizio (ToS) dovrebbero specificare il divieto di scraping e il carattere riservato o condizionato dell’accesso ai dati. Tali clausole possono costituire la base per azioni di responsabilità civile o per inviare diffide legali, anche tramite procedimenti sommari.
Inoltre, se i contenuti sono originali è possibile invocare la tutela autoriale del database, o quella sui generis prevista dalla direttiva 96/9/CE, e chiedere la rimozione dei dati copiati. Nei casi più gravi, la condotta può integrare l’accesso abusivo a un sistema informatico, previsto dall’art. 615-bis c.p., specie se avviene eludendo barriere di protezione o autenticazione.
Web scraping e GDPR: il confine invisibile tra dati pubblici e dati personali
Uno degli aspetti più delicati del web scraping riguarda la natura dei dati oggetto di raccolta: quando si parla di dati pubblici, si tende erroneamente a considerarli “liberi”, ma la normativa europea in materia di protezione dei dati personali, rappresentata dal Regolamento (UE) 2016/679 (GDPR), impone una riflessione ben più articolata. Il punto nodale è che dati pubblicamente accessibili non significano automaticamente dati liberamente utilizzabili.
Chi si chiede se è legale raccogliere dati pubblici deve partire da un presupposto di base:
“Se i dati raccolti sono “personali” – cioè riconducibili direttamente o indirettamente a una persona fisica identificata o identificabile – il trattamento rientra nel campo di applicazione del GDPR. Questo anche se tali dati sono pubblicati online dall’interessato stesso.”
Chi effettua lo scraping è qualificabile come data controller e, in quanto tale, è tenuto a garantire il rispetto del principio di accountability. Ciò include la dimostrazione documentata delle misure adottate per garantire la conformità del trattamento, dalla progettazione tecnica (privacy by design) art. 25 GDPR alle modalità di informativa, sicurezza e risposta ai diritti dell’interessato.
Casi studio: quando lo scraping è finito davanti al giudice
Uno dei precedenti giurisprudenziali più noti è hiQ Labs, Inc. v. LinkedIn Corp. (9th Cir., 2022). La Corte d’Appello statunitense ha stabilito che l’estrazione automatizzata di dati pubblicamente accessibili sul profilo LinkedIn non costituisce un accesso “non autorizzato” ai sensi del CFAA. Il punto chiave, secondo i giudici, è che i dati erano liberamente consultabili da chiunque sul web, e non protetti da autenticazione o barriere tecniche. Tuttavia, la Corte ha lasciato impregiudicata la questione contrattuale, riconoscendo che la violazione dei termini d’uso potrebbe generare responsabilità civile.
Invece, in Europa, il caso Station F ha mostrato che lo scraping può sfociare in responsabilità penale. Nel 2021, la CNIL francese ha sanzionato una startup che aveva automatizzato l’accesso a un database pubblico per finalità commerciali, violando le condizioni tecniche di utilizzo e superando le soglie consentite per l’accesso massivo.
Infine, in Germania, il Bundesgerichtshof (BGH) nel 2024 ha riconosciuto un danno non patrimoniale derivante da scraping massivo. Il caso riguardava una piattaforma digitale i cui contenuti erano stati sistematicamente copiati da un concorrente, provocando una perdita di posizionamento SEO. Il giudice ha riconosciuto che la violazione sistematica delle condizioni di accesso, associata a uno sfruttamento commerciale dei dati, poteva integrare non solo una concorrenza sleale, ma anche un danno alla persona giuridica, risarcibile sotto il profilo del pregiudizio reputazionale.
leggi anche
Chi è il DPO, cosa fa e a cosa serve

© RIPRODUZIONE RISERVATA