Partager
Actualité

Soutenance de Thèse : Flavia Serra

  • Laboratoire Sciences et technologies,
  • Recherche,
Date(s)

le 16 octobre 2024

Mercredi 16 octobre à 15h (heure française)
Lieu(x)
Montevideo, en Uruguay

Context-aware Data Quality Management

L’importance de l'analyse du contexte des données lors de l’évaluation de la qualité des données (QD) est démontrée depuis de nombreuses décennies. Aujourd’hui encore, cette nécessité est largement acceptée. Les premières approches définissent la QD comme l'aptitude à l'utilisation et montraient l'influence du contexte sur la QD. Selon la littérature, la plupart des activités de gestion de la qualité des données (GQD) sont influencées par le contexte des données.

De nombreuses méthodologies abordent la GQD, une tâche complexe composée de plusieurs étapes, où les activités de mesure, d'évaluation et d'amélioration de la qualité des données sont réalisées. Cependant, très peu de ces méthodologies prennent en compte le contexte des données dont la qualité est évaluée (appelé "data at hand" en anglais), et lorsqu’elles le font, le contexte n'est abordé qu'à leurs débuts. En conséquence, très peu de méthodologies de QD trouvées dans la littérature font référence à l’analyse du contexte des données, et aucune ne le définit ou ne le modélise. En général, très peu de propositions sur la modélisation du contexte peuvent être identifiées dans la littérature de la CD.

Cette Thèse aborde deux questions de recherche majeures : i) Comment définir le contexte de la qualité des données ? et ii) Comment inclure le contexte dans les activités d’une méthodologie de GQD ?

Pour répondre à la première question, une Revue Systématique de la Littérature (RSL) a été conduite pour étudier comment le contexte est pris en compte dans les propositions de la GQD. Les résultats de la RSL nous ont permis d'identifier un besoin urgent de modélisation et de gestion du contexte, essentiel pour proposer des solutions générales pour la GQD. Donc, une spécification du contexte des données pour QD serait la première étape vers sa formalisation.

Cette Thèse propose un Modèle du Contexte adapté à la GQD. Ce modèle peut inclure un ensemble de composants: domaine d'application, types d'utilisateurs, tâches, exigences de filtrage des données, de QD et du système, règles métier, métadonnées générales et de QD, et autres données (ces dernières sont des données liées aux données évaluées). Ces composants émergent des résultats RSL. De plus, nous présentons un modèle de la QD défini par une hiérarchie de concepts, à savoir dimension, facteur, métrique et méthode de la QD. Enfin, nous définissons les relations entre ces concepts de QD et les composantes contextuelles précédemment identifiées. Sur la base de ces relations, cette Thèse propose un Modèle de la QD Contextuel. Enfin, nous présentons un exemple dans lequel nous spécifions ce modèle de la QD contextuel.

Afin de répondre à la deuxième question, cette Thèse propose également une Méthodologie de Gestion de la Qualité dépendante du Contexte (appelée CaDQM), avec trois phases: planification de la QD, évaluation de la QD et amélioration de la QD. Chaque phase est définie par un ensemble d'étapes qui proposent des activités de GQD. Cette méthodologie exploite l'influence du contexte dans la plupart des activités de la GQD. En particulier, les composants contextuels sont identifiés dans la première phase, mis à jour dans la deuxième phase et utilisés dans les trois phases du CaDQM. Cette méthodologie naît non seulement de différents projets de recherche sur la qualité des données, dans lesquels des observations sur les besoins des organisations et des utilisateurs ont été réalisées, mais aussi des preuves recueillies à partir de l'état de l'art. Plus précisément, il s’inspire des méthodologies de qualité des données qui analysent le contexte des données dès leurs premières étapes.

Finalement, nous présentons les résultats obtenus dans quatre expériences menées avec différents jeux de données artificiels et réels, avec des participants de différents niveaux d'expertise dans le domaine de la qualité de données. Nous soulignons trois résultats pertinents: i) l'application d'une méthodologie de GQD se traduit par des activités de qualité des données mieux guidées, ce qui implique des temps d'exécution plus efficaces, ii) l’étape de définition du modèle de qualité des données est considérée comme la plus dépendante du contexte, et iii) le modèle de qualité des données obtenu tenant compte du contexte est défini plus profond et plus détaillé.

Le jury sera composé des membres suivants :

Prof. Ismael CABALLERO, Université de Castilla La Macha, Espagne (rapporteur)
Prof. Zoubida KEDAD, Université de Versailles, France (rapportrice)
Prof. Aiala ROSÁ, Université de la République, Uruguay
Prof. Diego VALLESPIR, Université de la République, Uruguay
Prof. Marcos VIERA, Université de la République, Uruguay

Prof. Patrick MARCEL, Université de Orléans, France (co-directeur de thèse)
Prof. Adriana MAROTTA, Université de la République, Uruguay (co-directrice de thèse)
MdC. Verónika PERALTA, Université de Tours, France (encadrante)