LIFAT Defense - Luong Phat Nguyen

Dates

on the December 10, 2021

10 décembre 2021 à PolytechTours 13h45 salle Lovelace salle Lovelace.

Location

Salle Lovelave - PolytechTours

Extraction et caractérisation des motifs spatio-temporels dans les vidéos

Le jury sera composé des membres suivants :

M. Nicolas RAGOT	Université de Tours	Directeur de thèse
M. Julien MILLE	INSA Centre Val de Loire	Co-encadrant de thèse
M. Dominique LI	Université de Tours	Co-encadrant de thèse
M. Nicolas THOME	Conservatoire national des arts et métiers	Examinateur
Mme Laure TOUGNE	Université Lumière Lyon 2	Rapporteure
M. Alexandre TERMIER	Université de Rennes 1	Rapporteur
M. Donatello CONTE	Université de Tours	Invité

Avant de vous lancer dans ma présentation, je vous propose déjà un court résumé de mes travaux de thèses :

La recherche de la thèse est d’analyser des vidéos. En particulier, nous recherchons un nouveau descripteur visuel en utilisant la fouille de données (FD) et la vision par ordinateur (VO) pour trouver une nouvelle représentation de vidéo. Les travaux de recherche sont appliqués à l'analyse vidéo, l'analyse de texture dynamique (TD) en particulier. La texture statique est une caractéristique importante de VO qui fournit des informations sur les régions cohérentes des images et l'identification des propriétés des matériaux. TD élargit l'analyse de texture statique à des séquences d'images. Les méthodes pour analyser les textures et le TD vont des descripteurs classique (dont les formes binaires locales et les filtres) aux modèles d'apprentissage profond (DL), surtout le développement de réseaux de neurones convolutifs. L'objectif de la thèse est d’analyser TD au moyen de la classification des vidéo. Pour cela, des études sur les méthodes classiques et DL sont réalisées. Dans la 1e partie, nous proposons une base de vidéos d'écoulement liquide-gaz capturées à partir d'un modèle mécanique simulant un champ de refroidissement d'un moteur automobile, par oscillations forcées. Du point de vue VO, il fournit un nouveau jeu de données TD avec des tâches dures car le liquide et le gaz changent constamment et la forme du flux liquide-gaz est liée à l'environnement externe. L'analyse montre qu'une telle vitesse de rotation peut être dure à prévoir. Cela pourrait être réalisé par des approches DL mais pas par une méthode d'analyse de trajectoire. L'une de nos contributions est d'ajouter une étape de prétraitement avec DoG sur plusieurs échelles comme entrée d’un modèle DL pour obtenir de bons résultats. L'approche proposée fournit une bonne précision de classification sur la base de DTDB. Puis, nous proposons une approche qui combine les approches DL et FD afin de classer TD. Un modèle DL utilisé pour l'estimation de flots optiques est utilisé pour extraire les caractéristiques. Elles sont ensuite encodées à l'aide d'une méthode de clustering avant d'être fournie à un algorithme FD pour trouver des motifs intéressants. Pour analyser la validité de l'approche, nous la testons sur les bases fournies. Les résultats sont variés car la méthode surpasse les autres sur la base de fluides mais a une basse précision lorsqu'elle est testée sur DTDB qui est à grande échelle. Cependant, des méthodes FD peuvent aider à expliquer les descripteurs visuels. La question est de savoir quoi et comment appliquer les approches FD pour résoudre les tâches VO, dans ce cas la classification de TD. Les résultats dans la 1e partie conduisent à la 2e partie du manuscrit. Dans cette partie, nous présentons un nouveau framework qui extrait des motifs spatio-temporels (ST) pour décrire et caractériser ce type de vidéos. D'abord, un GMM est utilisé pour clusteriser un des patchs sélectionnés au hasard à partir de vidéos d’apprentissage. Puis, une affectation souple est utilisée comme méthode de codage pour construire des séquences de vecteurs de probabilité (p-séquences) représentant des séquences de patchs ST. Après, une nouvelle approche FD est introduite pour extraire des motifs intéressants dans les p-séquences. Enfin, la construction de vecteurs de caractéristiques à partir de motifs permet une nouvelle représentation de TD avec de nouvelles caractéristiques ST. Les résultats expérimentaux et l'analyse pour la classification DT sur des bases de référence (UCLA, Traffic) montrent l'intérêt pour la méthode proposée. La recherche de thèse montre sa capacité à résoudre la tâche VO de classification des vidéos avec les approches VO et FD. L'approche proposée fonctionne bien avec la classification TD sur des bases de données de référence. Comme travaux futurs, la méthode peut être appliquée pour résoudre des problèmes comme la reconnaissance d'actions, le suivi, la classification en langue des signes, etc., ainsi que pour faire ressortir l'explicabilité des motifs.

LIFAT Defense - Luong Phat Nguyen

Learn more