Data analysis gains value when autonomous, heterogeneous sources can be related. Data Integration (DI) provides a unified view that enables more robust assessments, cross-domain comparisons, and informed decisions. When databases contain personal data, however, integration is not merely a technical challenge: confidentiality and legal constraints must be respected, maintaining a careful balance between analytical utility and the protection of individuals. DI is the process of combining multiple independent sources to obtain a single, coherent view. Record Linkage (RL) determines whether two records refer to the same real-world entity and enables the unification of information. Privacy-Preserving Data Integration (PPDI) extends this idea by protecting individuals throughout integration and analysis, including cybersecurity- and cryptography-based techniques for Extract, Transform, Load (ETL) of personal data. For example, Privacy-Preserving Record Linkage (PPRL) can employ pseudonymization to replace direct identifiers with cryptographic tokens, enabling linkage without exposing identifiers in plaintext and thereby reducing the risk of re-identification. The thesis designs and validates a PPDI framework applied in the justice and healthcare domains. The framework adopts a Trusted Third Party (TTP) architecture for sensitive operations and implements a process that includes classification based on identifiability risk, pseudonymization, and PPRL. Governance follows the General Data Protection Regulation (GDPR) principles of data minimization and privacy by design, tailoring protections to each phase of processing. In the justice domain, a proof of concept is developed to study recidivism. The process enables the construction of a privacy-aware data warehouse that consolidates judicial and criminal-justice sources and establishes a dedicated data mart for recidivism analysis. The approach maintains confidentiality while enabling the unified view required for policy-relevant insights. In the healthcare domain, the framework maps heterogeneous clinical sources to the Observational Medical Outcomes Partnership Common Data Model (OMOP CDM), emphasizing schema-alignment choices that respect identifiability classes and limit the propagation of quasi-identifiers. Comparative analyses in real-world settings highlight the limits, trade-offs, and adoption challenges of state-of-the-art methods versus established solutions. To this end, we examine innovative technologies under privacy constraints, specifically the behavior of Large Language Models (LLMs) in Text-to-SQL scenarios over databases that include identifiable and sensitive fields. The results motivate the need for standardized benchmarks and clearer operational safeguards so that natural-language access remains useful without weakening privacy protections. In conclusion, the thesis contributes a TTP-based architectural blueprint, an implementable PPDI process, domain-grounded applications, and an empirical perspective on natural-language access under privacy constraints, and discusses limitations and future work on a holistic, modular PPDI approach adaptable to multiple scenarios.

L’analisi dei dati acquista valore quando è possibile mettere in relazione più sorgenti, fornendo una vista unificata che abilita valutazioni più robuste, confronti trasversali e decisioni informate. Quando le basi contengono dati personali, tuttavia, l’integrazione non è solo una sfida tecnica: occorre rispettare la riservatezza e i vincoli legali, mantenendo un equilibrio attento tra utilità analitica e tutela degli individui. L’integrazione dei dati (Data Integration, DI) è il processo di combinare sorgenti autonome ed eterogenee per ottenere una vista unica e coerente; a questo fine, il record linkage (RL) determina se due record si riferiscono alla stessa entità del mondo reale e abilita l’unificazione delle informazioni. L’integrazione dei dati che preserva la privacy (Privacy-Preserving Data Integration, PPDI) estende questo obiettivo proteggendo la riservatezza degli individui durante l’integrazione e l’analisi, includendo metodi e tecniche di Extract-Transform-Load (ETL) basati su cybersicurezza e crittografia per il trattamento dei dati personali. Ad esempio, il record linkage che tutela la riservatezza (Privacy-Preserving Record Linkage, PPRL) può impiegare la pseudonimizzazione per sostituire gli identificatori diretti con token crittografici, consentendo il collegamento senza esporre identificatori in chiaro e riducendo il rischio di re-identificazione. La tesi propone e valida un framework di integrazione dei dati che preserva la privacy, applicato nei domini della giustizia e della sanità. Il framework adotta un’architettura con Terza Parte Fidata (Trusted Third Party, TTP) per coordinare le operazioni sensibili e implementa un processo che include classificazione basata sul rischio di identifiabilità, pseudonimizzazione e PPRL. La governance segue i principi del Regolamento Generale sulla Protezione dei Dati (General Data Protection Regulation, GDPR) di minimizzazione e privacy-by-design, calibrando le tutele per ciascuna fase del trattamento. Nel dominio giustizia è sviluppata una prova di concetto per lo studio della recidiva: il processo abilita la costruzione di un data warehouse che consolida fonti giudiziarie e penali e l’istituzione di un data mart dedicato alle analisi sulla recidiva. L’approccio mantiene la confidenzialità e, al contempo, consente la vista unificata necessaria a produrre evidenze utili alle politiche pubbliche. Nel dominio sanitario, il framework mappa sorgenti cliniche eterogenee sull’Observational Medical Outcomes Partnership Common Data Model (OMOP-CDM), con particolare attenzione a scelte di allineamento degli schemi che rispettano le classi di identificabilità e limitano la propagazione dei quasi-identificatori. Analisi comparative tra metodi allo stato dell’arte e soluzioni consolidate, applicate in contesti reali, evidenziano limiti, compromessi e complicazioni di adozione nei diversi scenari applicativi. A tal fine è analizzato il comportamento dei Large Language Models (LLMs) in scenari Text-to-SQL su basi di dati che includono esplicitamente campi identificabili e sensibili. I risultati motivano l’esigenza di benchmark standard e di salvaguardie operative più chiare, affinché l’accesso in linguaggio naturale resti utile senza indebolire la protezione dei dati. In conclusione, la tesi contribuisce con un progetto architetturale basato su TTP, un processo PPDI implementabile, applicazioni ancorate ai domini reali e una prospettiva empirica sull’accesso in linguaggio naturale sotto vincoli di privacy; come lavoro futuro, discute il valore di un approccio olistico e modulare alla PPDI capace di adattarsi a scenari differenti.

Integrazione di dati personali per Giustizia e Sanità: architettura, processo e metodi / Lisa Trigiante , 2026 Apr 24. 38. ciclo, Anno Accademico 2024/2025.

Integrazione di dati personali per Giustizia e Sanità: architettura, processo e metodi

TRIGIANTE, LISA
2026

Abstract

Data analysis gains value when autonomous, heterogeneous sources can be related. Data Integration (DI) provides a unified view that enables more robust assessments, cross-domain comparisons, and informed decisions. When databases contain personal data, however, integration is not merely a technical challenge: confidentiality and legal constraints must be respected, maintaining a careful balance between analytical utility and the protection of individuals. DI is the process of combining multiple independent sources to obtain a single, coherent view. Record Linkage (RL) determines whether two records refer to the same real-world entity and enables the unification of information. Privacy-Preserving Data Integration (PPDI) extends this idea by protecting individuals throughout integration and analysis, including cybersecurity- and cryptography-based techniques for Extract, Transform, Load (ETL) of personal data. For example, Privacy-Preserving Record Linkage (PPRL) can employ pseudonymization to replace direct identifiers with cryptographic tokens, enabling linkage without exposing identifiers in plaintext and thereby reducing the risk of re-identification. The thesis designs and validates a PPDI framework applied in the justice and healthcare domains. The framework adopts a Trusted Third Party (TTP) architecture for sensitive operations and implements a process that includes classification based on identifiability risk, pseudonymization, and PPRL. Governance follows the General Data Protection Regulation (GDPR) principles of data minimization and privacy by design, tailoring protections to each phase of processing. In the justice domain, a proof of concept is developed to study recidivism. The process enables the construction of a privacy-aware data warehouse that consolidates judicial and criminal-justice sources and establishes a dedicated data mart for recidivism analysis. The approach maintains confidentiality while enabling the unified view required for policy-relevant insights. In the healthcare domain, the framework maps heterogeneous clinical sources to the Observational Medical Outcomes Partnership Common Data Model (OMOP CDM), emphasizing schema-alignment choices that respect identifiability classes and limit the propagation of quasi-identifiers. Comparative analyses in real-world settings highlight the limits, trade-offs, and adoption challenges of state-of-the-art methods versus established solutions. To this end, we examine innovative technologies under privacy constraints, specifically the behavior of Large Language Models (LLMs) in Text-to-SQL scenarios over databases that include identifiable and sensitive fields. The results motivate the need for standardized benchmarks and clearer operational safeguards so that natural-language access remains useful without weakening privacy protections. In conclusion, the thesis contributes a TTP-based architectural blueprint, an implementable PPDI process, domain-grounded applications, and an empirical perspective on natural-language access under privacy constraints, and discusses limitations and future work on a holistic, modular PPDI approach adaptable to multiple scenarios.
Privacy-Preserving Data Integration: A Path to Unified Data and Better Analytics
24-apr-2026
BENEVENTANO, Domenico
BERGAMASCHI, Sonia
File in questo prodotto:
File Dimensione Formato  
Lisa_Trigiante_PhD_Thesis.pdf

Open access

Descrizione: Tesi
Tipologia: Tesi di dottorato
Dimensione 4.57 MB
Formato Adobe PDF
4.57 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1402952
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact