The proliferation of Time Series Data (TSD) across diverse domains presents persistent and critical challenges in modern Data Science (DS), demanding scalable, robust methods for forecasting, efficient resource management, and meaningful pattern discovery. The sheer volume and high-dimensionality of contemporary temporal datasets necessitate a comprehensive, architecture-driven approach to analysis. This thesis addresses these demands through an investigation structured around three central and interconnected pillars: Modeling, Efficiency, and Discovery. (i) Modeling and Systematic Evaluation: to overcome limitations in comparative performance and application-specific bias, this work establishes a rigorous, systematic benchmarking framework for time series forecasting models and datasets. This framework moves beyond isolated application studies to provide a critical, scalable foundation for evaluating model robustness and predictive performance across diverse temporal structures, thereby promoting methodological generalization. (ii) Efficiency in Big Data: addressing the vast resource requirements inherent in temporal Big Data, the research explores the optimization of Compact Data Structures (CDS) for Time Series (TS). It investigates techniques, such as the strategic exploitation of temporal motifs, to achieve highly efficient, query-able data compression. The focus is placed on optimizing the crucial design trade-offs required to manage large-scale data resources while maintaining full analytical capability. (iii) Discovery in Complex Systems: to advance pattern detection in high-complexity environments, the thesis contributes two distinct discovery methodologies. First, it introduces a novel spatio-temporal clustering technique that effectively incorporates both geographic and time-based information to facilitate the discovery of complex geological phenomena from PS-InSAR satellite data. Second, the theme of discovery extends to relational data with an exploration of Explainable Entity Matching, evaluating the application of Language Models and Large Language Models (LLMs) to enhance transparency and accuracy in data linkage tasks. Collectively, this research reframes the handling of ubiquitous temporal data not merely as a search for optimized algorithms, but as a comprehensive engineering challenge. The architectural design --- from systematic model evaluation frameworks and resource-efficient methodologies to integrated discovery techniques --- is shown to be paramount for achieving impactful and scalable solutions across diverse data science disciplines.
La proliferazione dei Dati sotto forma di Serie Temporale (DST) in svariati domini pone sfide persistenti e cruciali nella moderna Data Science (DS), richiedendo metodi scalabili e robusti per la previsione, l'efficiente gestione delle risorse e la scoperta di pattern significativi. L'enorme volume e l'alta dimensionalità dei contemporanei dataset temporali rendono necessario un approccio all'analisi comprensivo e guidato dall'architettura. Questa tesi affronta tali esigenze attraverso un'indagine strutturata su tre pilastri centrali e interconnessi: Modellazione, Efficienza e Scoperta. (i) Modellazione e Valutazione Sistematica Per superare i limiti nella performance comparativa e il bias specifico dell'applicazione, questo lavoro stabilisce un framework di benchmarking rigoroso e sistematico per i modelli di previsione e i dataset di serie temporale. Questo framework va oltre gli studi applicativi isolati per fornire una base critica e scalabile per la valutazione della robustezza e della performance predittiva dei modelli attraverso diverse strutture temporali, promuovendo così la generalizzazione metodologica. (ii) Efficienza nei Big Data Affrontando i vasti requisiti di risorse inerenti ai Big Data temporali, questo lavoro di ricerca esplora l'ottimizzazione delle Strutture Dati Compatte (SDC) per le Serie Temporali (ST): indaga tecniche, come lo sfruttamento strategico dei motif temporali, per ottenere una compressione dei dati altamente efficiente e interrogabile. L'attenzione è posta sull'ottimizzazione dei cruciali trade-off di progettazione necessari per gestire risorse di dati su larga scala, mantenendo al contempo la piena capacità analitica. (iii) Scoperta in Sistemi Complessi Per migliorare i metodi per l'individuazione di pattern in ambienti ad alta complessità presenti in letteratura, la tesi contribuisce con due distinte metodologie di scoperta. In primo luogo, introduce una nuova tecnica di clustering spazio-temporale che incorpora efficacemente informazioni sia geografiche che temporali per facilitare l’identificazione di complessi fenomeni geologici dai dati satellitari PS-InSAR. In secondo luogo, il tema della ricerca si estende ai dati relazionali con un'esplorazione dell'Entity Matching Spiegabile (Explainable Entity Matching), valutando l'applicazione di Modelli Linguistici (Language Models) e Modelli Linguistici di Grandi Dimensioni (LLM) per migliorare la trasparenza e l'accuratezza nei compiti di collegamento dei dati. Complessivamente, questa ricerca riformula la gestione dei dati temporali, onnipresenti nei campi di ricerca attuali, non solo come la ricerca di algoritmi ottimizzati, ma come una sfida ingegneristica complessiva. Si dimostra che il design architetturale — dai framework sistematici di valutazione dei modelli e le metodologie efficienti in termini di risorse alle tecniche di scoperta integrate — è fondamentale per raggiungere soluzioni efficaci e scalabili in diverse discipline della Data Science.
L'Architettura del Tempo: Modellazione, Efficienza e Scoperta nei Dati Temporali / Giacomo Guiduzzi , 2026 Apr 20. 38. ciclo, Anno Accademico 2024/2025.
L'Architettura del Tempo: Modellazione, Efficienza e Scoperta nei Dati Temporali
GUIDUZZI, GIACOMO
2026
Abstract
The proliferation of Time Series Data (TSD) across diverse domains presents persistent and critical challenges in modern Data Science (DS), demanding scalable, robust methods for forecasting, efficient resource management, and meaningful pattern discovery. The sheer volume and high-dimensionality of contemporary temporal datasets necessitate a comprehensive, architecture-driven approach to analysis. This thesis addresses these demands through an investigation structured around three central and interconnected pillars: Modeling, Efficiency, and Discovery. (i) Modeling and Systematic Evaluation: to overcome limitations in comparative performance and application-specific bias, this work establishes a rigorous, systematic benchmarking framework for time series forecasting models and datasets. This framework moves beyond isolated application studies to provide a critical, scalable foundation for evaluating model robustness and predictive performance across diverse temporal structures, thereby promoting methodological generalization. (ii) Efficiency in Big Data: addressing the vast resource requirements inherent in temporal Big Data, the research explores the optimization of Compact Data Structures (CDS) for Time Series (TS). It investigates techniques, such as the strategic exploitation of temporal motifs, to achieve highly efficient, query-able data compression. The focus is placed on optimizing the crucial design trade-offs required to manage large-scale data resources while maintaining full analytical capability. (iii) Discovery in Complex Systems: to advance pattern detection in high-complexity environments, the thesis contributes two distinct discovery methodologies. First, it introduces a novel spatio-temporal clustering technique that effectively incorporates both geographic and time-based information to facilitate the discovery of complex geological phenomena from PS-InSAR satellite data. Second, the theme of discovery extends to relational data with an exploration of Explainable Entity Matching, evaluating the application of Language Models and Large Language Models (LLMs) to enhance transparency and accuracy in data linkage tasks. Collectively, this research reframes the handling of ubiquitous temporal data not merely as a search for optimized algorithms, but as a comprehensive engineering challenge. The architectural design --- from systematic model evaluation frameworks and resource-efficient methodologies to integrated discovery techniques --- is shown to be paramount for achieving impactful and scalable solutions across diverse data science disciplines.| File | Dimensione | Formato | |
|---|---|---|---|
|
Guiduzzi Giacomo - Latest.pdf
Open access
Descrizione: Guiduzzi.Giacomo.pdf
Tipologia:
Tesi di dottorato
Dimensione
62.83 MB
Formato
Adobe PDF
|
62.83 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate

I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris




