Soutenance de thèse de Ichraq LEMGHARI
Add to the calendarComposition du jury :
M. Antoine MANZANERA, de l'U2IS de l'ENSTA de Paris, Rapporteur
M. David MERCIER, du laboratoire LGI2A d'Artois , Rapporteur
M. Aurélia FRAYSSE, du laboratoire L2S de Paris-Saclay, Examinatrice
M. Quoc Cuong PHAM, du CEA, Examinateur
Mots clés : Mots clés : Classification supervisée, Annotations bruitées, Classification à valeurs multiples, Modélisation de l’incertitude, Correction d’étiquettes, Application industrielle.
Résumé :
Dans le contexte de l’apprentissage profond, la présence d’annotations bruitées ou incorrectes demeure un défi majeur, en particulier dans les jeux de données industriels issus du monde réel. Cette thèse s’intéresse à la problématique de l’apprentissage de classifieurs fiables dans de tels environnements imparfaits et propose quatre contributions complémentaires visant à renforcer la robustesse des modèles de classification entraînés en présence de bruit sur les annotations. Après un état de l’art théorique et méthodologique sur l’apprentissage profond, le bruit d’étiquetage et la classification imprécise, nous présentons plusieurs jeux de données, collectés et structurés dans le cadre de ce travail, incluant des cas d’usage industriels complexes. La première contribution introduit un générateur de bruit, conçu pour simuler un bruit d’étiquetage réaliste et structuré. Contrairement aux outils existants, qui reposent principalement sur des perturbations aléatoires et un bruit indépendant des échantillons, notre générateur cible les exemples les plus susceptibles d’être confondus en pratique, en raison de motifs complexes et de similitudes entre classes. La deuxième contribution porte sur la détection des échantillons bruités à l’aide de classifieurs à valeurs d’ensemble. Nous montrons comment les prédictions sous forme d’ensembles peuvent servir d’indicateurs d’ambiguïté d’annotation, et proposons un cadre permettant de les exploiter pour détecter les données potentiellement mal étiquetées. Dans notre troisième contribution, nous abordons la correction de ces échantillons mal étiquetés à travers deux approches novatrices, l’une reposant sur l’attribution d’étiquettes floues (soft labelling), l’autre sur l’utilisation des prédicteurs de Venn-Abers, permettant d’estimer des probabilités bien calibrées et de réétiqueter plus efficacement les échantillons incertains. Enfin, nous proposons une fonction de perte robuste, conçue pour atténuer l’impact du bruit et de l’incertitude d’étiquetage durant l’entraînement, apportant ainsi une solution pratique adaptée aux scénarios réels. Ces différentes contributions donnent des résultats très prometteurs et s’inscrivent dans une stratégie cohérente de gestion du bruit d’annotation, en fournissant à la fois des outils concrets et des fondements théoriques pour la création de modèles d’apprentissage profond plus fiables et robustes.
Abstract :
In the context of deep learning, the presence of noisy and inaccurate labels remains a major challenge, particularly in real-world industrial datasets. This thesis investigates the problem of training reliable classifiers in such imperfect settings and proposes four complementary contributions aimed at improving the robustness of classification models trained under label noise. After a theoretical and methodological overview of deep learning, label noise, and imprecise classification, we introduce several datasets collected and structured for this work, including complex industrial use cases. Our first contribution introduces a custom noise generator designed to simulate realistic and structured label noise. Unlike existing tools that often rely on random perturbations and instance-independent noise, our generator targets samples that are most likely to be confused in practice, due to complex patterns and similarities between classes. The second contribution focuses on the identification of noisy samples using set-valued classifiers. We show how set-valued predictions can serve as indicators of label ambiguity and propose a framework to use them for detecting noisy labels. In our third contribution, we address the correction of these mislabeled instances through two novel approaches, either based on soft-labelling, or based on Venn-Abers predictors, allowing for well-calibrated probability estimates and more effective relabeling of uncertain samples. Finally, we propose a robust loss function designed to mitigate the impact of noise and label uncertainty during training, offering a practical solution for real-world scenarios. Together, these contributions yield very encouraging results and form a coherent strategy for handling noisy labels, providing both practical tools and theoretical foundations for building more reliable and robust deep learning models.