Il valore degli open data senza esporre i cittadini

Questa pagina raccoglie i concetti chiave che attraversano il dibattito sulla cittadinanza digitale — innovazione e intelligenza artificiale, interoperabilità dei sistemi e tutela della privacy — e li collega al modo in cui OpenData AI è progettato. È un contributo divulgativo: gli approfondimenti originali e le fonti autorevoli sono linkati in fondo.

Spunto di partenza. Questa lettura nasce dall'articolo di Agenda Digitale «La PA ha un tesoro di dati: come usarli senza esporre i cittadini» (Leucio Maturo, giugno 2026). Lo trovi, insieme ad altre letture, nella sezione Letture e riferimenti.

Il dato pubblico come asset strategico

Anagrafe, tributi, mobilità, ambiente, urbanistica, servizi sociali: ogni ufficio produce e conserva dati. Aperti nel modo giusto, questi dati diventano un bene comune che alimenta trasparenza, ricerca, nuovi servizi e imprese. È la logica degli open data: informazione pubblica resa disponibile a tutti, in formato aperto e riutilizzabile, anche per fini commerciali.

Proprio perché un open data è riutilizzabile da chiunque, per qualsiasi scopo, il valore e il rischio crescono insieme. Lo stesso dataset che permette a un'associazione di mappare i servizi del territorio potrebbe, se mal preparato, permettere a un terzo di ricostruire informazioni su singole persone. Valorizzare il patrimonio informativo significa quindi tenere insieme tre esigenze: innovazione (anche con l'AI), interoperabilità tra sistemi e tutela dei cittadini.

La tensione: aprire senza esporre

Il punto delicato non sono i dati palesemente personali (un nome, un codice fiscale): quelli si escludono o si oscurano facilmente. Il rischio vero è la re-identificazione: combinando più campi apparentemente innocui — età, CAP, professione, data di un evento — si può risalire a una persona, soprattutto in contesti piccoli come un comune. È il motivo per cui «togliere il nome» non basta quasi mai.

La regola pratica che ne deriva è netta: meglio rinunciare a un dato che pubblicarne uno re-identificabile. Tra il valore marginale di un dettaglio in più e il rischio di esporre un cittadino, vince sempre la tutela. Da qui nasce tutta la cassetta degli attrezzi tecnica descritta più sotto.

Dato personale, dato aperto, dato aggregato

Tre categorie aiutano a orientarsi. Un dato personale identifica una persona, direttamente o indirettamente, ed è protetto dal GDPR: non è materia da open data finché rimane tale. Un dato aperto è informazione pubblica, riutilizzabile e priva di riferimenti a persone identificabili. In mezzo c'è il dato aggregato: numeri che descrivono insiemi (quanti residenti in una fascia d'età, quanti permessi in un quartiere) senza che dal singolo numero si risalga al singolo individuo.

Il lavoro di apertura consiste proprio nel portare un'informazione dalla prima categoria alla seconda — di norma passando per l'aggregazione — con garanzie verificabili. È un passaggio che coinvolge sia profili tecnici (come trasformare il dato) sia profili giuridici (qual è la base normativa, qual è la finalità), e che richiede il coinvolgimento del DPO nei casi dubbi.

Le tecniche di tutela

Esiste una famiglia di approcci — le Privacy Enhancing Technologies (PET) — pensate per estrarre valore dai dati riducendo al minimo l'esposizione delle persone. Le più ricorrenti nel contesto della PA:

Anonimizzazione. Trasformazione irreversibile che rende impossibile (entro limiti ragionevoli) risalire all'individuo. Un dato veramente anonimo esce dal perimetro del GDPR — ma l'anonimato va dimostrato, non dichiarato.
Pseudonimizzazione. Sostituzione degli identificatori con codici, mantenendo separata la chiave di corrispondenza. Riduce il rischio ma non rende anonimo il dato: resta dato personale a tutti gli effetti.
K-anonymity. Garantire che ogni combinazione di attributi pubblicati sia condivisa da almeno k individui, così che nessun record sia isolabile. È una difesa diretta contro la re-identificazione per incrocio di campi.
Dati sintetici. Dataset generati artificialmente che riproducono le proprietà statistiche di quelli reali senza contenere record di persone vere. Utili per test, sviluppo e addestramento di modelli senza toccare dati personali.

Nessuna tecnica è una bacchetta magica: la scelta dipende dall'uso previsto e dal livello di rischio. Spesso si combinano (ad esempio aggregazione + k-anonymity) e vanno riviste nel tempo, perché ciò che è anonimo oggi può diventare re-identificabile domani con nuovi dataset in circolazione.

I principi operativi

Le tecniche poggiano su alcuni principi del GDPR che ogni ente dovrebbe applicare prima di pubblicare:

Limitazione della finalità. I dati si trattano per scopi determinati ed espliciti. L'apertura va valutata rispetto alla finalità per cui i dati erano stati raccolti.
Minimizzazione. Si pubblica solo ciò che serve allo scopo, non «tutto quello che c'è». Ogni campo in più è rischio in più.
Privacy by design e by default. La protezione si progetta a monte, nei processi di pubblicazione, non si rincorre a valle.
Valutazione d'impatto (DPIA). Quando il trattamento può presentare un rischio elevato, va condotta una valutazione formale, coinvolgendo il DPO.

Sono gli stessi principi che la guida all'apertura dei dati in un Comune traduce in passi operativi (bonifica, verifica privacy con il DPO, qualità) prima della pubblicazione su un catalogo.

Come OpenData AI applica questi principi

OpenData AI nasce su un presupposto coerente con tutto quanto sopra: lavora solo su dati già pubblici e già aperti, provenienti da fonti ufficiali (ISTAT, OpenCoesione, OpenStreetMap, cataloghi CKAN come dati.gov.it). Non raccoglie, non carica e non rielabora dati personali dei cittadini: trasforma open data in risposte utili, non viceversa.

Nessun nuovo trattamento di dati personali. Le analisi partono da dataset aggregati e da metadati pubblici; non c'è re-identificazione né arricchimento di profili individuali.
Ogni numero è tracciabile alla fonte. Ogni risposta cita la risorsa ufficiale da cui proviene il dato — niente numeri inventati, così l'informazione resta verificabile dal cittadino.
«Dato insufficiente» invece di punteggi falsi. Sotto la soglia minima di dati disponibili l'analisi lo dichiara, anziché produrre punteggi fuorvianti.

Per i dettagli sul trattamento dei dati degli utenti del servizio (account, cronologia) fai riferimento alla informativa privacy e alle note legali.

Letture e riferimenti

Approfondimenti su Agenda Digitale

Tutela dei dati personali

Open data nella PA

Questa pagina ha carattere informativo e divulgativo; non sostituisce gli atti ufficiali né la consulenza legale. I contenuti sono originali e ispirati ai temi trattati dalle fonti citate, di cui non riproducono il testo. Fare sempre riferimento ai testi normativi e ai provvedimenti del Garante vigenti.