The multimodal integration of different modalities, most prominently text and images, has become a central pursuit in Artificial Intelligence. Enabling machines to perceive visual content and express or reason about it through language represents a crucial step toward more general and interpretable intelligence. However, despite remarkable recent progress, achieving consistent alignment between visual understanding, language generation, and factual reasoning remains a fundamental challenge. This thesis investigates this continuum, tracing the evolution of multimodal understanding from small-scale, task-specific models for image captioning to large-scale Multimodal Large Language Models (MLLMs) capable of knowledge-grounded reasoning. The first part of the thesis focuses on image captioning, a foundational vision–language task in which a model learns to generate natural language descriptions of visual input. Traditional captioning approaches often rely on reinforcement learning with hand-crafted evaluation metrics that can restrict fluency and semantic depth. To overcome these limitations, we introduce a self-trained reward modeling framework that learns to assess image–caption alignment without predefined rewards, producing captions that are more fluent, informative, and semantically consistent. In a complementary line of work, we develop a direct optimization strategy that unifies reward estimation and caption generation within a single training objective. By leveraging learnable, perceptually aligned evaluation signals, this approach provides a stable and flexible optimization process that bridges the gap between metric-driven and semantically grounded captioning. The second part broadens this perspective to the large-scale integration of vision and language. A comprehensive survey of MLLMs maps the evolving landscape of architectures, modality-alignment techniques, pretraining datasets, and evaluation benchmarks, providing a conceptual framework for understanding how these models process and reason over visual inputs. The third part explores Knowledge-Based Visual Question Answering (KB-VQA) and the integration of external knowledge into multimodal reasoning. While MLLMs demonstrate strong generalization, they often lack access to factual information beyond their training data. To address this limitation, we develop two complementary Retrieval-Augmented Generation (RAG) frameworks. Wiki-LLaVA integrates large-scale encyclopedic retrieval into multimodal reasoning, enabling access to external knowledge during inference, while ReflectiVA extends this paradigm with a dual reflection mechanism that allows the model to decide when retrieval is necessary and to validate retrieved evidence before answer generation. These approaches substantially improve factual accuracy and interpretability on knowledge-intensive VQA benchmarks while maintaining performance on visual-only tasks. Beyond knowledge access, this thesis addresses limitations of purely parametric multimodal models in compositional understanding by introducing a causal, dependency-aware modeling framework that injects explicit structural inductive biases into vision–language representations, enabling more faithful reasoning over complex linguistic relations. Overall, this thesis presents a coherent progression from captioning models to large-scale multimodal reasoning systems, contributing new methods for visual–linguistic alignment, a comprehensive synthesis of the MLLM landscape, retrieval-augmented architectures for knowledge grounding, and causal compositional modeling, moving multimodal AI beyond perception toward reliable, knowledge-grounded, and structurally informed vision–language understanding.

L'integrazione multimodale di diverse modalità, in particolare testo e immagini, è diventata un obiettivo centrale dell'Intelligenza Artificiale. Consentire alle macchine di percepire contenuti visivi ed esprimerli o ragionarvi attraverso il linguaggio rappresenta un passo fondamentale verso forme di intelligenza più generali e interpretabili. Nonostante i recenti progressi, ottenere un allineamento coerente tra comprensione visiva, generazione linguistica e ragionamento fattuale rimane una sfida aperta. Questa tesi si colloca in questo continuum, tracciando l’evoluzione della comprensione multimodale dai modelli di image captioning ai Multimodal Large Language Models (MLLM) capaci di ragionamento fondato sulla conoscenza. La prima parte è dedicata all'image captioning, un compito fondativo visione–linguaggio in cui un modello genera descrizioni in linguaggio naturale a partire da ingressi visivi. Gli approcci tradizionali fanno spesso uso dell'apprendimento per rinforzo con metriche progettate manualmente, che possono limitare la fluidità e la ricchezza semantica delle descrizioni generate. Per superare tali limiti, proponiamo un framework di reward modeling auto-addestrato in grado di valutare l'allineamento immagine–didascalia senza ricompense predefinite, producendo descrizioni più fluide, informative e coerenti. In parallelo, sviluppiamo una strategia di ottimizzazione diretta che unifica la stima della ricompensa e la generazione della didascalia in un unico obiettivo di addestramento, offrendo un processo stabile e flessibile basato su segnali valutativi apprendibili e percettivamente allineati. La seconda parte estende l'analisi all'integrazione su larga scala di visione e linguaggio. Un'analisi sistematica dei MLLM esamina architetture, tecniche di allineamento tra modalità, dataset di pre-addestramento e benchmark di valutazione, fornendo un quadro concettuale per comprendere come questi modelli elaborano e ragionano sugli input visivi. La terza parte esplora il Knowledge-Based Visual Question Answering (KB-VQA) e il ruolo della conoscenza esterna nel ragionamento multimodale. Sebbene i MLLM mostrino una forte capacità di generalizzazione, essi spesso non dispongono di informazioni fattuali oltre quelle apprese in fase di addestramento. Per colmare questo limite, proponiamo due framework di Retrieval-Augmented Generation (RAG). Wiki-LLaVA integra il recupero di conoscenza enciclopedica nel ragionamento multimodale, mentre ReflectiVA introduce un meccanismo di riflessione duale che consente al modello di decidere quando il recupero sia necessario e di validare le evidenze prima della generazione della risposta. Questi approcci migliorano l'accuratezza fattuale e l'interpretabilità su benchmark di VQA che richiedono conoscenza esterna, mantenendo le prestazioni sui compiti puramente visivi. Infine, la tesi affronta i limiti dei modelli multimodali puramente parametrici nella comprensione composizionale, introducendo un framework causale e sensibile alle dipendenze che incorpora bias induttivi strutturali nelle rappresentazioni visione–linguaggio, consentendo un ragionamento più fedele su relazioni linguistiche complesse. Nel complesso, la tesi presenta un percorso coerente che va dai modelli di captioning ai sistemi di ragionamento multimodale su larga scala, contribuendo con nuovi metodi per l'allineamento visivo–linguistico, architetture di recupero per il grounding della conoscenza e modelli causali composizionali, spingendo l'Intelligenza Artificiale multimodale oltre la percezione verso una comprensione visione–linguaggio affidabile e fondata sulla conoscenza.

Scalare la comprensione visivo-linguistica: dall’Image Captioning ai Multimodal Large Language Models basati sull'integrazione di conoscenza esterna / Nicholas Moratelli , 2026 Apr 24. 38. ciclo, Anno Accademico 2024/2025.

Scalare la comprensione visivo-linguistica: dall’Image Captioning ai Multimodal Large Language Models basati sull'integrazione di conoscenza esterna

MORATELLI, NICHOLAS
2026

Abstract

The multimodal integration of different modalities, most prominently text and images, has become a central pursuit in Artificial Intelligence. Enabling machines to perceive visual content and express or reason about it through language represents a crucial step toward more general and interpretable intelligence. However, despite remarkable recent progress, achieving consistent alignment between visual understanding, language generation, and factual reasoning remains a fundamental challenge. This thesis investigates this continuum, tracing the evolution of multimodal understanding from small-scale, task-specific models for image captioning to large-scale Multimodal Large Language Models (MLLMs) capable of knowledge-grounded reasoning. The first part of the thesis focuses on image captioning, a foundational vision–language task in which a model learns to generate natural language descriptions of visual input. Traditional captioning approaches often rely on reinforcement learning with hand-crafted evaluation metrics that can restrict fluency and semantic depth. To overcome these limitations, we introduce a self-trained reward modeling framework that learns to assess image–caption alignment without predefined rewards, producing captions that are more fluent, informative, and semantically consistent. In a complementary line of work, we develop a direct optimization strategy that unifies reward estimation and caption generation within a single training objective. By leveraging learnable, perceptually aligned evaluation signals, this approach provides a stable and flexible optimization process that bridges the gap between metric-driven and semantically grounded captioning. The second part broadens this perspective to the large-scale integration of vision and language. A comprehensive survey of MLLMs maps the evolving landscape of architectures, modality-alignment techniques, pretraining datasets, and evaluation benchmarks, providing a conceptual framework for understanding how these models process and reason over visual inputs. The third part explores Knowledge-Based Visual Question Answering (KB-VQA) and the integration of external knowledge into multimodal reasoning. While MLLMs demonstrate strong generalization, they often lack access to factual information beyond their training data. To address this limitation, we develop two complementary Retrieval-Augmented Generation (RAG) frameworks. Wiki-LLaVA integrates large-scale encyclopedic retrieval into multimodal reasoning, enabling access to external knowledge during inference, while ReflectiVA extends this paradigm with a dual reflection mechanism that allows the model to decide when retrieval is necessary and to validate retrieved evidence before answer generation. These approaches substantially improve factual accuracy and interpretability on knowledge-intensive VQA benchmarks while maintaining performance on visual-only tasks. Beyond knowledge access, this thesis addresses limitations of purely parametric multimodal models in compositional understanding by introducing a causal, dependency-aware modeling framework that injects explicit structural inductive biases into vision–language representations, enabling more faithful reasoning over complex linguistic relations. Overall, this thesis presents a coherent progression from captioning models to large-scale multimodal reasoning systems, contributing new methods for visual–linguistic alignment, a comprehensive synthesis of the MLLM landscape, retrieval-augmented architectures for knowledge grounding, and causal compositional modeling, moving multimodal AI beyond perception toward reliable, knowledge-grounded, and structurally informed vision–language understanding.
Scaling Vision-Language Understanding: From Image Captioning to Knowledge-Grounded Multimodal Large Language Models
24-apr-2026
CUCCHIARA, Rita
File in questo prodotto:
File Dimensione Formato  
Moratelli.pdf

Open access

Descrizione: Moratelli.Nicholas.pdf
Tipologia: Tesi di dottorato
Dimensione 6.62 MB
Formato Adobe PDF
6.62 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1402949
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact