g-docweb-display Portlet

Parere sui lavori statistici IST 02834 Studio dei Mobile Network Data a fini statistici e IST 02829 La violenza raccontata dai social - 9 giugno 2022 [9802796]

Stampa Stampa Stampa
PDF Trasforma contenuto in PDF

[doc. web n. 9802796]

Parere sui lavori statistici IST 02834 Studio dei Mobile Network Data a fini statistici e IST 02829 La violenza raccontata dai social - 9 giugno 2022

Registro dei provvedimenti
n. 235 del 9 giugno 20202

IL GARANTE PER LA PROTEZIONE DEI DATI PERSONALI

NELLA riunione odierna, alla quale hanno preso parte il prof. Pasquale Stanzione, presidente, la prof.ssa Ginevra Cerrina Feroni, vice presidente, il dott. Agostino Ghiglia, l’avv. Guido Scorza, componenti e il Consigliere Fabio Mattei, segretario generale;

VISTO il Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE, “Regolamento generale sulla protezione dei dati” (di seguito “Regolamento”);

VISTO il d.lgs. 30 giugno 2003, n. 196 recante il “Codice in materia di protezione dei dati personali, recante disposizioni per l’adeguamento dell’ordinamento nazionale al Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la Direttiva 95/46/CE” (di seguito “Codice”);

VISTO il d.lgs. 6 settembre 1989, n. 322, recante le “Norme sul Sistema statistico nazionale e sulla riorganizzazione dell’Istituto nazionale di statistica” e in particolare, l’art. 6- bis del d.lgs. 322 del 1989, inserito dall'art. 9, comma 6-bis, lett. c) d.l. 28 gennaio 2019, n. 4, convertito, con modificazioni, dalla l. 28 marzo 2019, n. 26;

VISTE le “Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica effettuati nell’ambito del Sistema Statistico nazionale”, Allegato A.4 al Codice (di seguito “Regole deontologiche”);

VISTO, in particolare, l’art. 4-bis delle Regole deontologiche, in base al quale “nel Programma statistico nazionale sono illustrate le finalità perseguite e le garanzie previste dal d.lgs. 6 settembre 1989, n. 322 e dal d.lgs. 30 giugno 2003, n. 196 e successive modificazioni e integrazioni e dalle presenti regole deontologiche. Il Programma indica altresì i dati di cui agli artt. 9, par. 1, e 10 del Regolamento, le rilevazioni per le quali i dati sono trattati e le modalità di trattamento. Il Programma è adottato, con riferimento ai dati personali, di cui agli art. 9 e 10 del Regolamento, sentito il Garante per la protezione dei dati personali, ai sensi dell´art. 58, par. 3, lett. b) Regolamento”;

VISTE le “Guidelines on assessing the proportionality of measures that limit the fundamental rights to privacy and to the protection of personal data” del Garante Europeo, del 19 dicembre 2019;

VISTO il parere del Garante sullo schema di Programma statistico nazionale 2017-2019, Aggiornamento 2018-2019, del 9 maggio 2018, doc. web n. 9001732, con il quale l’Autorità ha formulato parere non positivo in relazione (tra gli altri) al lavoro statistico IST-02589 Uso a fini statistici dei Big Data;

VISTO il parere del Garante del 10 dicembre 2020, sullo schema di Programma statistico nazionale 2020-2022 con il quale è stata confermata la sospensione del lavoro IST-02589 Uso a fini statistici dei Big Data (doc. web n. 9520567);

VISTE le note del 3 luglio 2020 (prot. n. 1563758), dell’8 ottobre 2020 (prot. n. 1873068), del 3 giugno 2021 (prot. n. 2024453) e del 2 dicembre 2021 (prot. n. 3161720/21) con le quale l’Istituto Nazionale di Statistica (Istat) ha fornito documentazione integrativa, in relazione al richiamato lavoro statistico;

VISTA la documentazione in atti;

VISTE le osservazioni formulate dal Segretario generale ai sensi dell’art. 15 del Regolamento del Garante n. 1/2000 sull’organizzazione e il funzionamento dell’ufficio del Garante per la protezione dei dati personali, in www.gpdp.it, doc. web n. 1098801;

Relatore il dott. Agostino Ghiglia;

PREMESSO

1. Premessa

Con il parere, del 9 maggio 2018, richiesto dall’Istituto Nazionale di Statistica (Istat) sullo schema di Programma statistico nazionale 2017-2019, Aggiornamento 2018-2019 (Psn), l’Autorità si è espressa in termini non favorevoli in relazione a svariati lavori statistici tra cui quello denominato IST-02589 Uso a fini statistici dei Big Data (di seguito anche solo IST-02589).

Nel richiamato provvedimento, l’Autorità aveva evidenziato come il lavoro IST-02589, già oggetto di rilievi da parte del Garante (cfr. il parere del 2 marzo 2017), risultasse modificato rispetto alle sue versioni precedenti, indicando i seguenti specifici ambiti di analisi:

“1. sperimentazione dell'utilizzo, a fini statistici, di fonti di telefonia mobile ai fini della stima dei flussi per tipologie utenti nella matrice origine/destinazione nell'ambito del Progetto Istat (Persons & Places);

2. sperimentazione dell'utilizzo, a fini statistici, di fonti di telefonia mobile per la stima dei flussi turistici inbound e outbound. I dati di telefonia mobile potranno essere utilizzati per tracciare i flussi turistici in Italia, da parte di turisti stranieri, o di turisti stranieri all'estero, utilizzando le connessioni effettuate in roaming;

3. sperimentazione dell'utilizzo, a fini statistici, di dati ottenuti dal web mediante tecniche di web scraping (applicazioni nell'ambito dell'indagine sull''Uso dell'ICT da parte delle imprese' per la individuazione di e-commerce, online job application, presenza nei social media, sostenibilità socio-ambientale e attività effettiva dell'impresa) e della rilevazione sulle "Aziende di Agriturismo";

4. sperimentazione dell'utilizzo, a fini statistici, dei contenuti dei Social Media (Facebook, Twitter) per la stima del grado di fiducia dei consumatori e delle aspettative degli attori economici;

5. sperimentazione dell'utilizzo, a fini statistici, di dati ottenuti da sensori (webcam e immagini satellitari) per la stima dei flussi di traffico stradale e per la stima della produzione agricola;

6. sperimentazione dell'utilizzo, a fini statistici, delle serie storiche di Google Trends per nowcasting di indicatori del mercato del lavoro;

7. sperimentazione dell'utilizzo, a fini statistici, degli scanner data della grande distribuzione ai fini della costruzione dell'indice dei prezzi al consumo;

8. sperimentazione dell'utilizzo, a fini statistici, dei dati prodotti dagli smart meters relativi al consumo di energia elettrica da parte delle famiglie;

9. sperimentazione dell'utilizzo, a fini statistici, dei dati prodotti dagli AIS (Automatic Identification Systems) per stimare i flussi di traffico marittimo”.

Con riferimento alle sperimentazioni prospettate nei punti nn. 1 e 2, che prevedono l'utilizzo di fonti di telefonia mobile, l’Autorità aveva ribadito che “l'utilizzo di queste informazioni comporta specifici rischi per la riservatezza e la protezione dei dati personali degli interessati, tenuto anche conto che, grazie alle nuove tecnologie e alle nuove tecniche di analisi, elaborazione e interconnessione dei dati, risulta spesso possibile (o, comunque altamente probabile) la reidentificazione di un interessato anche attraverso informazioni apparentemente anonime (c.d. "single-out")”.

Era quindi stata evidenziata la necessità che, prima di avviare il trattamento di dati personali previsto nell'ambito di tali sperimentazioni, l'Istat sottoponesse al Garante le metodologie individuate e le garanzie adottate per gli interessati, illustrando, in particolare, le tecniche di minimizzazione o anonimizzazione impiegate e le metriche adottate, in ciascun caso (anche mediante esemplificazioni), per la stima della probabilità di reidentificazione.

Con riferimento alla sperimentazione n. 8, l’Autorità aveva precisato che “i dati contenuti nel Sistema informativo dell'Acquirente unico potranno essere trattati solo in seguito alla stipula del protocollo di intesa tra le Autorità competenti” (punto 6.1. del richiamato provvedimento), sul quale si segnala che il Garante ha recentemente reso il parere (cfr. provv. del 16 dicembre 2021 doc. web 9738899).

Nello schema di PSN 2020 – 2022, il lavoro statistico IST-02589 Uso a fini statistici dei Big Data è stato ridenominato IST-02808 Studio delle fonti Big Data a fini statistici ed è stato riformulato con una più accurata specificazione degli obiettivi, chiarendo la natura sperimentale dello studio volto alla:

“1. Sperimentazione dell'utilizzo a fini statistici di dati da fonte di telefonia mobile ai fini della stima di (i) indicatori di popolazione (popolazione residente, popolazione abitualmente dimorante, popolazione insistente) e di flussi di spostamento (ad es. matrice del pendolarismo) (ii) misura di indicatori SDG (Sustainable Development Goals) (iii) flussi turistici inbound (stranieri che viaggiano in Italia) e domestic (residenti in Italia che viaggiano sul territorio nazionale).

2. Sperimentazione dell'utilizzo a fini statistici di dati ottenuti dal web, ed in particolare da siti web delle imprese, da portali web sul lavoro, da portali e piattaforme che propongono alloggi a fini turistici.

Gli usi specifici riguardano: (i) arricchimento dell'archivio ASIA con informazioni desunte dai siti web delle imprese; (ii) supporto alle statistiche sul lavoro (in particolare alle statistiche sui posti vacanti derivanti da survey) mediante analisi dei 'job advertisement' a partire da siti delle imprese e portali e valutazione di potenziali indicatori supplementari; (iii) supporto alle statistiche della domanda e dell'offerta turistica; (iv) supporto alle statistiche sui prezzi al consumo.

3. Sperimentazione dell'utilizzo a fini statistici di dati da Twitter per (i) analisi sulla percezione della violenza di genere; (ii) analisi della 'pertinenza' dei rilasci di Statistica Ufficiale da parte dell'Istat; (iii) costruzione di 'word embeddings' per analisi delle relazioni tra i concetti espressi su Twitter; (iv) analisi del sentiment sul fenomeno migratorio.

4. Sperimentazione a fini statistici di dati ottenuti da immagini satellitari per la produzione di statistiche di land use/land cover.

5. Sperimentazione a fini statistici di dati ottenuti da fonti GIS per il rilevamento del traffico e acquisizione di filmati da webcam, dai gestori delle strade per l'analisi dei flussi di traffico e la stima su archi stradali.

6. Sperimentazione dell'utilizzo a fini statistici dei dati prodotti dagli AIS (Automatic Identification Systems) per stimare i flussi di traffico marittimo.

7. Sperimentazione dell'utilizzo a fini statistici di transazioni elettroniche di pagamento per il miglioramento delle previsioni di variabili macroeconomiche e per lo studio di e-commerce e piattaforme elettroniche di vendita beni e servizi”.

Nel richiamato schema di PSN 2020 – 2022 è inoltre presente il lavoro statistico IST-02807 Statistiche con uso di fonti Big Data che, come statistica da fonti amministrative organizzate, si pone quale obiettivo quello di effettuare “(…) 1) elaborazione del Social Mood on economy index da testi di messaggi di Twitter; 2) elaborazione di stime relative alla presenza di web ordering, di annunci di lavoro e di appartenenza a social media ricavate dai siti aziendali; 3) elaborazione del dataset dell'estesa chilometrica per tipo strada da Open Street Map; 4) elaborazione di indicatori di incidentalità stradale per provincia e tipo strada mediante l’utilizzo dell’estesa chilometrica delle strade per tipologia, da Open Street Map”.

L’Autorità nel parere reso sullo schema di PSN 2020 – 2022 ha ribadito che i lavori statistici basati sulle fonti cd “Big Data” devono considerarsi ancora sospesi (cfr. parere del 10 dicembre 2020).

2. L’attività istruttoria

Con nota del 3 luglio 2020 (prot. n. 1563758), l’Istat ha trasmesso al Garante la valutazione di impatto -e ulteriore documentazione - in relazione al lavoro IST-02589 Uso a fini statistici dei Big Data. Sul punto l’Ufficio rilevava la necessità di ulteriori integrazioni alla luce del principio di responsabilizzazione e dell’obbligo di protezione dei dati sin dalla progettazione (artt. 5, par. 2 e 25 del Regolamento), al fine di una completa rappresentazione delle scelte in ordine a “i) tecniche di pseudonimizzazione, ii) rischi di reidentificazione degli interessati, nella fase della diffusione dei dati; iii) composizione del campione; iv) effettiva applicazione del principio di responsabilizzazione (art. 5, par. 2 e 24, del Regolamento)” (cfr. nota del 27 luglio 2020, prot. n. 28182).

Con riferimento alla documentazione sopra citata, merita tuttavia evidenziarsi che l’Istituto presentava unitamente ad essa un nuovo prospetto informativo statistico del lavoro in esame nel quale, nella sezione Obiettivo, le finalità perseguite risultavano ridotte a n. 7, come confermato nello schema di PSN 2020 – 2022 (cfr. lavoro statistico IST - 02808 Studio delle fonti Big Data a fini statistici).

In attuazione del principio di leale collaborazione istituzionale, con nota del 2 dicembre 2020 (prot. n. 45929), tenuto anche conto della rilevanza dello studio progettuale di cui trattasi per l’evoluzione delle modalità di realizzazione della statistica ufficiale, l’Ufficio ha proposto uno specifico incontro per un approfondimento su:

− “le finalità del trattamento (ciò anche in considerazione del fatto che lo studio progettuale sembrava essere volto al perseguimento di scopi statistici alquanto eterogenei tra loro, accomunati solo dall’intento di utilizzare informazioni, definite Big data, desunte, non solo da operatori telefonici ma anche dal web e dai social network);

− le misure adottate per assicurare la qualità del dato;

− la metodologia impiegata per la pseudonimizzazione dei dati e la valutazione dei rischi di reidentificazione”.

A seguito degli incontri tenutisi il 14 dicembre 2020 il 26 aprile 2022 e della richiesta di informazioni del 21 marzo 2022 (prot. n. 16089) , con note del 3 giugno 2021, 2 dicembre 2021, 6 aprile 2022 e del 18 maggio 2022 (prot. n. 1073239/22), l’Istat ha fornito ulteriori e specifici chiarimenti e documentazione integrativa in base ai quali si formula il presente parere.

3. I chiarimenti pervenuti e le osservazioni del Garante

3.1. l’Uso di nuove fonti di dati a fini statistici.

In via preliminare, l’Istituto ha rappresentato che già da diversi anni Eurostat e il Sistema statico europeo (ESS), in considerazione del rapido processo di trasformazione digitale, che ha portato alla cd datificazione della società, si sono interessati delle prospettive e possibilità correlate all’uso dei cd Big data per la produzione della statistica ufficiale (Bucharest Memorandum on Official Statistics in a Datafied Society (Trusted Smart Statistics) 104th DGINS Conference, Bucharest, 10th and 11th October 2018 As adopted by the European Statistical System Committee (ESSC) meeting on the 12th October 2018).

A tale riguardo, nell’incoraggiare l’utilizzo dei predetti dati e lo sviluppo di statistiche sperimentali su nuovi fenomeni, viene sottolineata la necessità della definizione di uno specifico quadro giuridico a livello europeo e nazionale che riduca gli ostacoli all'accesso, uso e integrazione di dati eterogenei per produrre in modo sostenibile un insieme di indicatori socio-economici raggruppati sotto la terminologia “Trusted Smart Statistics”. La disponibilità di statistiche “real time” e comparabili a livello europeo è diventata cruciale per consentire ai “policy maker” di prendere decisioni e sostenere misure correttive efficaci e tempestive, come avvalorato dalla recente crisi pandemica da Covid-19, la quale ha dimostrato l’utilità di queste fonti di dati anche come strumento di contrasto al diffondersi di fake news e della disinformazione.

Si sta quindi consolidando a livello europeo il convincimento che l’evoluzione della statistica ufficiale verso analisi più complete, celeri trasversali ma allo stesso tempo accurate e solide, possa essere realizzata non solo attraverso l’uso delle fonti amministrative ma anche dei dati generati da fonti di varia natura, offerti da diversi soggetti che concorrono alla fornitura di servizi digitali e di telecomunicazione, ai quali si dovrà affidare un ruolo complementare rispetto alle tradizionali fonti utilizzate.

L’ESS riconosce e sottolinea come tale cambiamento esiga un approccio metodologico basato sul principio di privacy by design in linea con il Regolamento.

Allo stato l’assenza un approccio armonizzato alla condivisione dei dati “Business-to-Government” negli Stati membri espone al rischio che queste iniziative siano soggette a regole e pratiche amministrative disomogenee.

L’ESS evidenza quindi l’importanza di una regolamentazione uniforme sulla condivisione dei dati tra imprese e amministrazioni e sulla definizione di principi chiari, volti ad assicurare un solido sistema di tutele e garanzie per gli interessati e gli operatori economici in materia di riservatezza. Ciò, fermo restando che la normativa di attuazione, volta e definire le modalità operative di tali nuove forme della statistica ufficiale, potrebbe essere ulteriormente sviluppata nelle specifiche discipline di settore sia a livello nazionale che europeo, come il regolamento (CE) n. 223/2009 sulle statistiche europee.

La sede appropriata per introdurre le richiamate misure, per l’ESS, potrebbe essere la Proposta di Regolamento del Parlamento europeo e del Consiglio relativo alla governance europea dei dati (Atto sulla governance dei dati) del 25 novembre 2020, al fine di assicurare la definizione di processi affidabili con adeguate garanzie di trasparenza, verificabilità, responsabilità, indipendenza, imparzialità e aderenza a metodologie scientifiche.

In tale contesto, l’Istat ha reso noto come già in diversi paesi europei taluni istituti di statistica nazionali abbiamo realizzato dei lavori sperimentali che prevedono l’uso dei Big Data ed in particolare dei dati di telefonia mobile(1).

3.2 I lavori statistici basati sulle fonti “Big data”

Fatta questa premessa di carattere generale, in ordine alla necessità di sfruttare fonti private e cd di “Big data” per la produzione della statistica ufficiale, l’Istituto, a seguito delle numerose interlocuzioni intercorse con l’Ufficio, ha proceduto a razionalizzare il lavoro statistico IST-02589 - Uso a fini statistici dei Big Data (successivamente diviso nelle schede IST-02807 Statistiche con uso di fonti Big Data; IST-02808 Studio delle fonti Big Data a fini statistici) elaborando quattro ulteriori lavori statistici, come di seguito indicato:

- IST 02834 Studio dei Mobile Network Data a fini statistici;

- IST 02829 La violenza raccontata dai social;

- Il Social Mood on Economy Index;

- I lavori statistici su web, oggetto di sperimentazione, e mediante tecniche di web scraping, sensori (webcam e immagini satellitari) per la stima dei flussi di traffico stradale e per la stima della produzione agricola; serie storiche di google trends per nowcasting.
Le ulteriori finalità previste nella scheda del lavoro statistico IST-02589 - Uso a fini statistici dei Big Data (successivamente diviso nelle schede IST-02807 Statistiche con uso di fonti Big Data; IST-02808 Studio delle fonti Big Data a fini statistici) e non contemplate nei lavori sopra richiamati si intendono quindi sospese o quantomeno non perseguite dall’Istat attraverso l’uso di dati di carattere personale.

3.2.1. IST 02834 Studio dei Mobile Network Data a fini statistici

La sperimentazione dell'utilizzo a fini statistici di dati derivanti dai servizi di telefonia mobile ha come finalità la stima di:

(i) indicatori di popolazione (popolazione residente, popolazione abitualmente dimorante, popolazione insistente) e di flussi di spostamento (ad es. matrice del pendolarismo, tras-frontalieri);

(ii) misura di indicatori SDG (Sustainable Development Goals);

(iii) flussi turistici inbound (stranieri che viaggiano in Italia) e domestic (residenti in Italia che viaggiano sul territorio nazionale).

Per perseguire le richiamate finalità l’Istat, nella valutazione di impatto, redatta ai sensi dell’art. 35 del Regolamento e trasmessa in atti, ha dichiarato di acquisire da un provider telefonico i cd CDR (Call Detail Record), opportunamente elaborati e aggregati, che “vengono poi confrontati con i dati amministrativi di residenza per dimostrare l’elevata correlazione dei due valori e per dimostrare come questi dati consentano di ottenere stime di predizione di elevata qualità nella definizione della popolazione dimorante. Analogamente vengono confrontati, sempre in forma aggregata, (i) i volumi di flussi di pendolarismo tra due diversi comuni o aree amministrative, (ii) i flussi turistici domestici (Domestic), (iii) i flussi turistici dall’estero (Inbound) derivanti dalla lavorazione dei CDR con quelli derivanti dalle indagini statistiche tradizionali”.

I CDR acquisiti sono relativi a “una specifica area territoriale (Province e/o Regioni), e a un periodo di tempo definito di 5 o 6 settimane. Tra i dati disponibili nei CDR, il Provider telefonico estrae e trasmette soltanto: un identificativo unico per ogni SIM (Subscriber Identity Module), il tipo di evento (chiamata telefonica o Text Message), la data e l’orario di inizio chiamata (l’orario è espresso in ora e minuti), la durata della chiamata (espressa in ore e minuti), il codice della cella telefonica di inizio e di fine chiamata. Inoltre vengono selezionati i CDR delle SIM che hanno più di 5 eventi in tutto il periodo di osservazione ed escluse SIM che hanno attività di messaggistica molto elevata o concentrata, in quanto potrebbero essere derivanti da meccanismi di IoT (Internet of Things) (...)”.

In applicazione del principio di minimizzazione del dato (art. 5, par. 1, lett. c) del Regolamento), “il codice SIM (Subscriber Identity Module) contenuto nel CDR viene ri-codificato dal provider e, prima dell’invio della fornitura ad Istat, il provider stesso distrugge il file di raccordo tra gli identificativi originali e quelli trasformati. Questo, oltre a garantire il disaccoppiamento della fornitura dei dati ad ISTAT dalla base dati interna del provider, consente all’Istituto di acquisire una base di dati già ricodificata”.

L’Istituto, poi, procede ad una sistematica aggregazione dei dati secondo partizioni temporali (settimane, giorni della settimana o fasce orarie) e aree riferite alle antenne (BSA). I totali ottenuti vengono riproporzionati rispetto al comune in funzione della percentuale di copertura dell’area della BSA. Quindi l’attribuzione del comune di origine e destinazione delle tratte è fatta in base a semplici stime.

Per assicurare l’effettiva applicazione dei principi di minimizzazione del dato e di limitazione della finalità, e in omaggio al cd divieto di ricadute amministrative (art. 5, par. 1, lett. b) e c) del Regolamento e art. 105 del Codice), l’Istat ha individuato specifiche misure tecniche e organizzative per prevenire indebite correlazioni (“linkage”) tra i dati dell'operatore e le fonti interne dell’Istituto.
In particolare, “Internamente all’Istituto la fornitura nelle elaborazioni per i fini di analisi e studio riportati nel lavoro statistico IST-02589, viene pretrattata operando una generalizzazione temporale e spaziale, che rende pressoché impossibile la re-identificazione degli interessati. A valle delle generalizzazioni [...] vengono analizzate, identificate e misurate le singolarità come ad esempio quelle relative a SIM che inviano molti messaggi, SIM che effettuano chiamate in un solo giorno nell’intero periodo osservato o tratte abituali che vengono percorse da meno di 3 SIM” (“Applicazione del toolkit Assessing the necessity of measures that limit the fundamental right to the protection of personal data lavoro scheda PSN IST-02834”).

Al fine di evitare indebite ipotesi di “single out” di taluni interessati, le singolarità non vengono trattate e tutte le occorrenze di eventi caratterizzate da una combinazione di parametri univoca, o comunque in numero inferiore a tre unità, sono espunte dallo studio, ciò senza alcun detrimento della qualità dell’informazione statistica, posto che l’Istat, attraverso l’uso di diverse analisi statistiche, che tengono conto della cancellazione di alcune informazioni (nel caso in esame tratte singole o doppie), riesce a considerare questo elemento informativo senza trattare dati, anche solo indirettamente e in ipotesi del tutto residuale, identificativi degli interessati.

A completamento delle principali informazioni fornite in ordine alla qualità dei dati trattati, l’Istituto ha precisato che “trattandosi di una sperimentazione su una base di dati acquisita presso terzi, la non discriminazione viene applicata in quanto i dati acquisiti dal gestore telefonico riguardano l’intera classe di utenza, senza alcun tipo di selezione sui CDR oggetto del lavoro”.

3.2.2 Osservazioni del Garante

In via preliminare, si rappresenta che il Garante aderisce alla posizione di Eurostat e di ESS nel dibattito comunitario sull’uso dei Big data a fini di statistica ufficiale. Se infatti la necessità -quanto meno di sperimentare- l’uso di queste nuove fonti risulta più che comprovata ed urgente per una produzione statistica adeguata al contesto storico di riferimento, d’altro canto essa non può prescindere da una disciplina omogenea a livello europeo che tenga anche conto delle rilevanti implicazioni sui diritti e le libertà fondamentali degli interessati sotto il profilo della protezione dei dati e della riservatezza, in linea con quanto stabilito dalla Carta dei diritti fondamentali dell’Unione Europea e dal Regolamento.

Sotto altro profilo, il Garante ha avuto già modo di esprimersi in merito all’uso di dati provenienti da fonti privati, quelli relativi ai consumi energetici per scopi censuari, sottolineando come l’intromissione nella dimensione più intima e privata degli individui, ossia quella domestica, esiga che vengano individuate specifiche misure a tutela degli interessati anche per prevenire violazioni del divieto di ricadute amministrative (cfr. il Parere sullo schema di protocollo di intesa tra Istituto nazionale di statistica e Acquirente Unico S.p.a., per la regolamentazione dell’acquisizione da parte di Istat dei dati sui consumi di energia elettrica e gas, del 16 dicembre 2021, cit.).

De iure condendo sarà necessario, in vista della sistematizzazione dell’uso dai dati “Business-to-Government” nel panorama delle fonti utilizzabili per scopi di statistica ufficiale, individuare a livello comunitario garanzie adeguate a salvaguardare la legittima pretesa di riservatezza vantata da ogni individuo (inteso come utente/contraente) rispetto ad indebite ingerenze dello Stato nella sua vita privata.

Al riguardo, basti pensare che se ben può riconoscersi una qual certa prevedibilità che dati amministrativi siano ulteriormente utilizzati dalle diverse articolazioni statali per scopi statistici, l’accesso dello stesso a dati personali gestiti iure privatorum, inerenti ad aspetti particolarmente intimi della vita degli interessati (come le comunicazioni personali e gli spostamenti sul territorio) potrebbe risultare del tutto imprevedibile e sproporzionato, se non corroborato da specifiche misure di trasparenza e bilanciamento.

Il lavoro statistico in esame va quindi considerato come preliminare sperimentazione di queste nuove modalità di realizzazione della statistica.

In tale ottica, alle luce dei chiarimenti pervenuti, con particolare riferimento al documento in atti denominato “Applicazione del toolkit Assessing the necessity of measures that limit the fundamental right to the protection of personal data lavoro scheda PSN IST-02834”, si ritiene che l’Istituto abbia motivato, in primo luogo, la necessità di sperimentare l’uso dei dati di telefonia mobile a fini di statistica ufficiale, alla luce delle tempestività informativa che i così detti “Real world data” sono capaci di assicurare e dell’apporto che gli stessi possono fornire alla qualità dell’informazione statistica in termini di accuratezza, con ciò assicurando ai decisori pubblici la possibilità di ancorare le proprie scelte sulla base di dati più aggiornati e aderenti alla realtà fattuale.

Sotto altro profilo, anche la proporzionalità del trattamento risulta motivata viste le misure implementate per ridurre il rischio di reidentificazione degli interessati. Con il documento “Stima della probabilità di reidentificazione per i dati di telefonia mobile”, inviato con nota del 3 luglio 2020, (prot. n. 1563758), l’Istituto ha effettuato un’analisi delle circostanze che potrebbero condurre all’emersione delle identità degli interessati coinvolti nello studio e della verosimiglianza di tali circostanze.

Il rischio di reidentificazione è dato dalla possibilità di individuare interessati specifici attraverso il collegamento dei dati impiegati nello studio ad altre fonti amministrative in possesso dell’Istituto. Tale rischio, già mitigato dalla scelta di eliminare ogni singolarità, è ulteriormente contenuto in considerazione del fatto che in una eventuale fonte ausiliaria interna di tipo amministrativo non risulta censito l’operatore dell’interessato coinvolto nello studio. Le valutazioni dell’Istituto mostrano inoltre una probabilità teorica di reidentificazione quantificabile nell’ordine di cinque unità su mille; essa risulta comunque condizionata dalla disponibilità di tali eventuali fonti ausiliarie, l’accesso alle quali è regolato da stringenti policy. Tale valore e l’insieme dei mezzi necessari alla reidentificazione consentono di ritenere che ragionevolmente non sia possibile l’identificazione indiretta dell’interessato (considerando 26 del Regolamento).

3.3. IST 02829 La violenza raccontata dai social

Dal lavoro IST- 02589 è stato estrapolato quello denominato IST-02829 La violenza raccontata sui social, il cui obiettivo e quello di “utilizzare i messaggi veicolati dai social Twitter, Facebook e Instagram e Rassegna stampa Web per valutare, attraverso un’analisi di tipo opinion mining, il fenomeno della violenza di genere e la presenza di stereotipi. In particolare, si vuole restituire un indice di positività o negatività del fenomeno e cogliere la sua stessa evoluzione attraverso i social (come, ad esempio, nelle forme peggiori il cyberbullismo e il bodyshaming) al fine di monitorarne le sue diverse forme digitali”.

In base alla “descrizione sintetica” riportata nel relativo prospetto informativo: “la rilevazione riguarda la definizione di una piattaforma (denominata IRIDE) che acquisisce e classifica in tempo reale i messaggi social raccogliendo i contenuti pubblici dalle fonti Twitter, Facebook e Instagram e Rassegna stampa Web, afferenti a ‘violenza di genere’, e ‘stereotipi di genere’ e 'linguaggio di odio'. La metodologia consiste nell’addestrare un algoritmo sulla base della ‘taggatura’, ovvero attribuendo un valore (positivo, negativo o neutro) e una emotion (Amore, Gioia, Sorpresa, Rabbia, Tristezza, Paura, Neutro), a un set di conversazioni su cui la macchina è stata addestrata”.

L’Istat a tal fine acquisisce tramite le API (application programming interface) messe a disposizione dai social network selezionati il contenuto testuale del messaggio e come metadato, l’informazione temporale ad esso associata.

Il contenuto del messaggio viene poi confrontato con parole e locuzioni di significato affine (synset) contenuti cioè in un vocabolario che associa ad ogni synset punteggi di sentiment positivo e negativo. Sulla base dei risultati di tale confronto, a ciascun Tweet campionato viene assegnato un punteggio (‘score’) di sentiment positivo e negativo.

I messaggi vengono classificati e aggregati a livello giornaliero, in Tweet negativi, Tweet neutri e Tweet positivi, per un totale di circa 105 messaggi al giorno. Sulla base delle precedenti aggregazioni viene calcolato un indice sintetico di sentiment del giorno ossia “un indice numerico normalizzato”.

A differenza del lavoro statistico volto allo studio del Social Mood on Economy Index (cfr. infra punto3.4), quello in esame può dunque comportare il trattamento di dati personali. Nell’ambito degli approfondimenti istruttori svolti dall’Ufficio è emerso, infatti, che da ciascun social network selezionati, Istat raccoglie le seguenti informazioni: “@account, testo compreso di eventuali hashtag, URL di ciascun singolo tweet e dei relativi commenti (c.d. trend), data di pubblicazione”.

Nello specifico e come rappresentato nella VIP, viene costituita una piattaforma (denominata IRIDE) per l’acquisizione e la classificazione in tempo reale dei messaggi social riferibili a “violenza di genere” e “stereotipi di genere”. Vengono nuovamente identificate delle parole chiave che consentono l’estrazione dei contenuti di interesse dalle sorgenti individuate. A tal fine, la piattaforma consente di scegliere tra:

- “concetti/parole (ad esempio “violenza di genere”, “stereotipi di genere”)

- hashtag (ad esempio #violenzasulledonne)

- account (ad esempio @1522)”.

I messaggi sono successivamente classificati, con supervisione umana, in tre categorie (Objectivity Detection, Sentiment Analysis, Emotion Detection) al fine “di ottenere un algoritmo che riproduce le decisioni umane, con un margine d’errore fissato”. “Per valutare la bontà delle annotazioni [classificazioni] si procede alla misurazione dell'agreement tra gli annotatori attraverso l'utilizzo di due metriche: Inter Rater Agreement (IRA) [...] Fleiss Kappa”. L’Istat ha rappresentato inoltre la presenza di specifici strumenti per prevenire bias o errori.

E’ stato altresì chiarito che “il modello prodotto dagli annotatori umani, [...], viene usato per addestrare il modello BERT (Bidirectional Encoder Representations from Transformers), facente parte della piattaforma IRIDE, con l’obiettivo di far lavorare l’algoritmo creato ai fini della classificazione al posto degli umani; questi possono comunque sempre intervenire per modificare eventuali distorsioni [...]”.

Successivamente viene avviato un “processo di machine learning per l’analisi del sentiment e dell’emotion. (...). La piattaforma IRIDE si avvale di algoritmi di sentiment analysis basati su architettura di Deep Learning (Artificial Intelligence) per il calcolo del sentiment. Il ruolo dell’Istat in questa fase è quello di addestrare l’algoritmo, sulla base della “taggatura”, ovvero attribuendo un valore (positivo, negativo o neutro) e una emotion (Amore, Gioia, Sorpresa, Rabbia, Tristezza, Paura, Neutro), a un set di conversazioni su cui la macchina è stata addestrata”.

L’Istat sul punto ha dichiarato che “i trattamenti a fini statistici non sono finalizzati all’adozione di decisioni individuali bensì allo studio e alla rappresentazione di fenomeni collettivi” e che “i dati identificativi, necessari alla realizzazione di questo lavoro, vengono cancellati dopo 24 mesi e non sono più ri-utilizzati o ri-utilizzabili”.

Con riguardo all’uso dei dati identificativi degli interessati desumibili da ULR e @account degli utenti autori dei messaggi selezionati nei social network utilizzati, Istat ha in primo luogo chiarito che le “API sono pubbliche e non è prevista da parte dei social network, che rendono disponibili gratuitamente i contenuti pubblici “postati” dagli utenti, alcuna forma di anonimizzazione o di pseudonimizzazione o di cifratura di tali dati (che è quindi un onere di chi ne fruisce)”.

Sotto altro profilo è stato chiarito che “il motivo per cui Istat acquisisce anche account e URL (ossia dati personali) è per garantire l’accuratezza, l’esattezza e l’integrità del dato statistico [...]”. In particolare è stato rappresentato che "L’acquisizione della URL è necessaria per identificare univocamente il messaggio e tenere traccia dei contenuti acquisiti dalle piattaforme per poterli recuperare in caso di perdita degli stessi. Siccome i contenuti vengono scelti sulla base delle key words, in caso di loro perdita, avere l’identificativo univoco è necessario per selezionare nuovamente i contenuti già acquisiti dal web (che ne garantisce la disponibilità in quanto “naturale” backup)”.

Con riferimento alla raccolta e successivo trattamento dell’account è stato chiarito che esso si rende necessario in quanto “lo scenario in cui un certo numero di utenti distinti scrive lo stesso contenuto [...] ha un significato statistico molto diverso da quello in cui un solo utente scrive lo stesso messaggio n volte”.

Cionondimeno l’Istat ha dichiarato che “al fine di raffinare la minimizzazione già operata, la prima operazione che Istat applica ai dati acquisiti tramite API è quella di cifrare @account e URL (con tecnica hashing)”.

Tale studio progettuale consente all’Istituto di studiare, da una nuova prospettiva, il tema della violenza di genere e in particolare sulle donne assolvendo agli impegni assunti dall’Italia con la Firma della Convenzione del Consiglio d’Europa sulla prevenzione e la lotta contro la violenza nei confronti delle donne e la violenza domestica (Convenzione di Istanbul del 11 maggio 2011). La Convenzione all’art. 11 dispone che “le Parti si impegnano a:

a) raccogliere a intervalli regolari i dati statistici disaggregati pertinenti su questioni relative a qualsiasi forma di violenza che rientra nel campo di applicazione della presente Convenzione;

b) sostenere la ricerca su tutte le forme di violenza che rientrano nel campo di applicazione della presente Convenzione, al fine di studiarne le cause profonde e gli effetti, la frequenza e le percentuali delle condanne, come pure l’efficacia delle misure adottate ai fini dell’applicazione della presente Convenzione.

2 Le Parti si adoperano per realizzare indagini sulla popolazione, a intervalli regolari, allo scopo di determinare la prevalenza e le tendenze di ogni forma di violenza che rientra nel campo di applicazione della presente Convenzione.

3 Le Parti forniscono al Gruppo di esperti menzionato all'articolo 66 della presente Convenzione le informazioni raccolte conformemente al presente articolo, per stimolare la cooperazione e permettere un confronto a livello internazionale.

4 Le Parti vigilano affinché le informazioni raccolte conformemente al presente articolo siano messe a disposizione del pubblico”.

Tale nuova modalità di realizzazione della statistica ufficiale soddisfa le linee di indirizzo emerse dal gruppo di lavoro sul Gender Statistics di UNECE (United Nations Economic Commission for Europe), nel Online Meeting of the UNECE Group of Experts on Gender Statistics 2021, che ha esplicitamente messo tra le sue priorità per il futuro, l'utilizzo di nuovi fonti di dati non tradizionali(2).

3.3.1 Osservazioni del Garante

La necessità e la proporzionalità del lavoro in esame risultano motivate alla luce di considerazioni analoghe a quelle già richiamate con riferimento al lavoro statistico IST-2808.

Anche in relazione a tale lavoro il trattamento, seppure in questa fase in via ancora sperimentale, di dati derivanti da fonti alternative a quelle tradizionali risulta necessario non solo per le caratteristiche, già descritte dei Real world data, ma anche perché il fenomeno osservato della violenza di genere ha una dimensione digitale sempre più rilevante e preoccupante. Ciò soprattutto nelle fasce più giovani della popolazione che sono i maggiori utenti della rete internet.

In relazione alla proporzionalità del trattamento si segnala che esso non è volto a profilare l’autore del messaggio ma ad intercettare la dimensione del fenomeno attraverso la restituzione di indici di positività o negatività. Ciò che rileva nell’analisi è unicamente l’occorrenza, eventualmente congiunta, dei termini chiave prescelti dall’Istituto, senza effettuare alcun monitoraggio individuale del comportamento degli utenti nella libera espressione del loro pensiero.

A tale riguardo, si prende favorevolmente atto in primo luogo della dichiarazione da ultimo fornita dall’Istituto (nota del 18 maggio 2022) in base alla quale, diversamente da quanto inizialmente prospettato nella VIP, non viene effettuata alcuna classificazione degli utenti quali “utenti maggiormente attivi tra istituzioni, opinion leaders, utenti comuni”. A tale riguardo, si sottolinea, infatti, che l’utilizzo di tali ulteriori informazioni non appariva supportato da alcuna specifica metodologia che ne giustificasse, in base al principio di proporzionalità, l’efficacia e la necessita rispetto allo scopo statistico perseguito.

In secondo luogo, si guarda con favore alla individuazione di una misura di cifratura (hashing) delle informazioni identificative degli interessati per tutto il periodo per il quale l’identità degli stessi non risulta necessaria per lo svolgimento del lavoro. Cionondimeno, al fine di assicurare effettiva applicazione del principio di minimizzazione dei dati e conformare la misura implementata allo stato dell’arte tecnologica, si ritiene necessario che le chiavi di cifratura applicate a @account e URL siano aggiornate con una cadenza di 48 ore.

Tutto ciò premesso, rilavata la natura sperimentale del lavoro in esame e dell’impiego di tecniche algoritmiche, si ritiene necessario che l’Istat fornisca un report al Garante entro 6 mesi dall’avvio della sperimentazione, indicando in particolare le modalità seguite per addestrare il modello BERT (Bidirectional Encoder Representations from Transformers) facente parte della piattaforma IRIDE.

3.4 Ulteriori lavori statistici che non comportano il trattamento di dati personali

3.4.1 Il Social Mood on Economy Index

Con riferimento all’elaborazioni statistiche denominate “Social Mood on Economy index” è stato dichiarato che non vengono trattati “dati personali. Pertanto la scheda PSN, che sarà formulata come lavoro distinto dagli altri, non conterrà la sezione “dati personali” “.

Più nel dettaglio, l’Istat ha precisato che il “Social Mood on Economy Index” è alimentato unicamente da campioni di tweet pubblici e che esso è volto a comprendere se “i messaggi pubblici in lingua italiana disponibili sui social media possano essere sfruttati con successo per sviluppare indici di sentiment specifici (…). A tale scopo sono state sviluppate procedure che selezionano ed elaborano unicamente messaggi il cui testo contenga almeno una parola appartenente ad un determinato filtro, vale a dire ad uno specifico insieme di parole chiave rilevanti. (...). Tali parole chiave (...) sono state essenzialmente derivate dal questionario dell’indagine sulla fiducia dei consumatori (...). La procedura di calcolo dell’indice giornaliero elabora tutti i tweet raccolti in un giorno (circa 58.000, in media) come un unico blocco. I messaggi vengono prima puliti e normalizzati, quindi analizzati con tecniche di sentiment analysis. Il metodo di sentiment analysis adottato è non supervisionato e si basa sull’uso di un lexicon di sentiment in lingua italiana, vale a dire un vocabolario ai cui lemmi sono associati punteggi di sentiment positivo e negativo precalcolati. I testi di tutti i tweet vengono confrontati con il lexicon: sulla base dei punteggi delle parole abbinate, a ciascun tweet vengono assegnati punteggi di sentiment positivo e negativo. I punteggi di sentiment dei messaggi vengono successivamente utilizzati da un algoritmo di clustering che partiziona i tweet del giorno in tre classi disgiunte: tweet negativi, tweet neutri e tweet positivi. Il valore dell’indice giornaliero viene infine ricavato applicando un’opportuna misura di tendenza centrale alla distribuzione dei punteggi dei tweet positivi e negativi.
Come accade per la maggior parte delle sorgenti Big Data, il meccanismo di generazione dei dati di Twitter non ricade sotto il diretto controllo dello statistico e non è noto (...).

La cattura dei tweet avviene senza selezionare specifici utenti di Twitter e senza tracciare l’attività di alcun utente. L’indice usa esclusivamente dati anonimizzati e non linkati: i messaggi elaborati non sono mai associati ai rispettivi autori, i quali sono ignoti all’Istat. La procedura di calcolo dell’indice elabora unicamente il contenuto testuale dei tweet raccolti. I valori giornalieri dell’indice sono il risultato dell’aggregazione di punteggi di sentiment numerici associati a decine di migliaia di messaggi.

Si tratta di un processo irreversibile: in nessun caso il testo di un tweet potrà mai essere ricostruito analizzando i valori dell’indice”.

Su tali basi, per la realizzazione del richiamato lavoro non è necessario il preventivo parere del Garante.

3.4.2 Lavori statistici su web mediante tecniche di web scraping, sensori (webcam e immagini satellitari) per la stima dei flussi di traffico stradale e per la stima della produzione agricola; serie storiche di google trends per nowcasting

Con riferimento ai lavori in oggetto, corrispondenti agli obiettivi n. 4 e 5 del precedente prospetto informativo del lavoro IST-2589 riguardanti rispettivamente: “4. Sperimentazione a fini statistici di dati ottenuti da immagini satellitari per la produzione di statistiche di land use/land cover. 5. Sperimentazione a fini statistici di dati ottenuti da fonti GIS per il rilevamento del traffico e acquisizione di filmati da webcam, dai gestori delle strade per l'analisi dei flussi di traffico e la stima su archi stradali”, l’Istat ha in via preliminare dichiarato che i dati a tal fine trattati sono “di natura pubblica e non personale” e che le fonti coinvolte nell’analisi “sono trattate in modo completamente indipendente una dall’altra”.

In particolare, è stato precisato che:

- “I dati acquisiti dal web mediante tecniche di web scraping sono pubblici e non di natura personale, in quanto l’accesso è limitato a:

- -siti Web di imprese con più di 10 addetti (non a socio unico), finalizzato alla stima di caratteristiche di imprese quali utilizzo di social media, utilizzo di e-commerce, etc.;

- -portali con prodotti per accedere ai prezzi dei prodotti;

- -portali sul lavoro, acceduti solo con riferimento alla tipologia degli annunci e agli skill richiesti;

- -i portali e le piattaforme che propongono alloggi a fini turistici, acceduti solo con riferimento alle caratteristiche degli alloggi.

Con riferimento ai dati Esa Sentinel 2 [Sentinel-2 è una missione sviluppata dall' ESA nell'ambito del programma Copernicus per monitorare le aree verdi del pianeta e fornire supporto nella gestione di disastri naturali] è stato chiarito che si tratta di “immagini ad una risoluzione tale da permettere di classificare porzioni di territorio (Land Cover): forestale, residenziale, coltivato, etc.”

Con riferimento ai dati di fonte “ANAS video di 7 giorni, H24 da quattro postazioni della rete stradale” è stato dichiarato che si tratta di “video relativi a passaggi di veicoli a bassa risoluzione”.

Con riferimento ai dati derivati dalle serie storiche di Google Trends per nowcasting è stato dichiarato che “i dati non sono di natura personale, trattandosi di dati aggregati resi pubblicamente accessibili da Google e relativi alla sola frequenza di ricerca delle parole chiave, senza nessun collegamento con chi effettua la ricerca”.

Anche per la realizzazione dei richiamati lavori statistici, il Garante ritiene che non sia quindi necessaria la preventiva acquisizione del parere di competenza.

TUTTO CIO’ PREMESSO IL GARANTE

ai sensi dell’art. 58, par. 2, lett. d) e par. 3, lett. b) del Regolamento, dell’art. 6- bis del d.lgs. 322 del 1989 e dell’art. 4-bis delle Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica effettuati nell’ambito del Sistema Statistico nazionale, Allegato A.4 al Codice, esprime parere favorevole sui lavori statistici IST 02834 Studio dei Mobile Network Data a fini statistici e IST 02829 La violenza raccontata dai social, a condizione che, in riferimento al lavoro statistico IST 02829 La violenza raccontata dai social:

1) le chiavi di cifratura applicate a @account e URL siano aggiornate con una cadenza di 48 ore (cfr. punto 3.3.1);

2) l’Istat fornisca un report al Garante, entro 6 mesi dall’avvio della sperimentazione, indicando in particolare le modalità seguite per addestrare il modello BERT (Bidirectional Encoder Representations from Transformers) facente parte della piattaforma IRIDE.

Ai sensi dell’art. 78 del Regolamento, degli artt. 152 del Codice e 10 del d.lgs. 1° settembre 2011, n. 150, avverso il presente provvedimento è possibile proporre ricorso dinnanzi all’autorità giudiziaria ordinaria, a pena di inammissibilità, entro trenta giorni dalla data di comunicazione del provvedimento stesso ovvero entro sessanta giorni se il ricorrente risiede all’estero.

Roma, 9 giugno 2022

IL PRESIDENTE
Stanzione

IL RELATORE
Ghiglia

IL SEGRETARIO GENERALE
Mattei

 

(1) Si segnala, nello specifico che l’Istat ha evidenziato che “Molti istituti di statistica hanno realizzato statistiche sperimentali su dati di telefonia mobile, tra questi si possono citare i lavori di:

- CBS – istituto di statalistica Olandese – che ha studiato la mobilità della popolazione sul territorio;

- INE – Istituto di statistica Spagnolo che ha studiato la popolazione abitualmente dimorante e la mobilità giornaliera e stagionale;

- DESTATIS- Istituto di statistica Tedesco che ha studiato la mobilità e la distribuzione di popolazione sul territorio;

- STATFI - Istituto di statistica Finlandia per il turismo

- STATISTIK – Istituto di statistica Austria che ha effettuato studi sulla mobilità per lavoro e turismo” -

(2) https://unece.org/sites/default/files/2021-10/GenderStats2021Report.pdf - punto 26 “Discussion on future methodological work brought up topics such as the measurement gender and climate change, use of administrative and non-traditional sources for measuring gender issues, and the effect of the pandemic on cultural participation of women and men. The Conference of European Statisticians Steering Group on Gender Statistics will consider developing concrete proposals for further work in these areas”.