Dates
on the July 12, 2017
14h00
Location
Polytech Tours, 64 avenue Jean Portalis, 37200 Tours
Salle Lovelace
Salle Lovelace
Word spotting from multilingual and stylistic documents
Les outils et méthodes d’analyse d’images de documents (DIA) donnent aujourd’hui la possibilité de faire des recherches par mot-clés dans des bases d’images de documents alors même qu’aucune transcription n’est disponible. Dans ce contexte, beaucoup de travaux ont déjà été réalisés sur les OCR ainsi que sur des systèmes de repérage de mots (spotting) dédiés à des documents textuels avec une mise en page simple. En revanche, très peu d’approches ont été étudiées pour faire de la recherche dans des documents contenant du texte multi-orienté et multi-échelle, comme par exemples dans les documents graphiques.
Par exemple, les images de cartes géographiques peuvent contenir des symboles, des graphiques et du texte avec des orientations et des tailles différentes. Dans ces documents, les caractères peuvent aussi être connectés entre eux ou bien à des éléments graphiques. Par conséquent, le repérage de mots dans ces documents se révèle être une tâche difficile.
Dans cette thèse nous proposons un ensemble d’outils dédiés aux images de documents géographiques pour le repérage de mots (keyword spotting). L’approche proposée repose sur plusieurs originalités. Premièrement, lors des prétraitements, nous proposons de générer une représentation structurelle de bas niveau du contenu des documents, séparant les éléments textuels des éléments graphiques. L’originalité ici vient du fait que l’information est produite à la fois au niveau pixel (par des méthodes de filtrage) et à un niveau structurel élémentaire (analyse et classification de composantes connexes). Par ailleurs, chaque niveau d’information aboutit à la création de cartes de probabilités au lieu de fournir pour chaque région de l’image une décision stricte (texte ou graphique). Ces cartes de probabilité peuvent être utilisées séparément ou agrégées pour extraire différents types d’information (identification de leur contenu, repérage de contenu textuel, etc.). Ces différentes approches et niveaux d’information ont été utilisés pour évaluer leur qualité pour une tâche de séparation entre la couche texte et la couche graphique. Elles ont été comparées avec différentes autres méthodes de la littérature, tant dans le domaine fréquence que dans le domaine spatial. Une fois cette description structurelle élémentaire obtenue (séparation texte-graphique), un niveau de description lexical est rajouté au document en séparant les éléments textuels connectés entre eux pour obtenir des caractères et les identifier par des classificateurs. Ici, des descripteurs invariants à l’échelle et à la rotation sont utilisés.
Partant de là, la méthode de spotting permettant la recherche d’un mot-clé procède en plusieurs étapes. L’initialisation s’effectue en recherchant au niveau lexical les éléments (caractères) correspondants à la requête et ayant été reconnus avec un bon taux de confiance par le classificateur. En effet, à cause de la complexité inhérente aux documents (dégradations, liaisons inter-caractères ou liaisons texte-graphique), certains caractères de la requête peuvent ne pas être identifiés clairement ou induire des ambiguités dans la recherche, ce que nous préférons éviter en premier abord. En partant de ces éléments textuels stables bien identifiés, et en prenant en compte leur position, taille et orientation, nous estimons les régions candidates correspondant aux parties manquantes de la requête. Afin d’identifier ces éléments manquants, nous utilisons une méthode à base de points d’intérêts pour confirmer leur présence dans les régions candidates.
Nous avons effectué des expérimentations à la fois sur des cartes numérisées en anglais et en bengali. Les résultats expérimentaux démontrent que la méthode est efficace pour repérer les mots ainsi que les emplacements dans des documents graphiques étiquetés par texte. Le jeu de données et la vérité terrain correspondante ont été rendus publics afin que d’autres chercheurs puissent se comparer et faire de nouvelles propositions.
Mots clefs: Analyse d’images de documents, repérage de mots (word spotting), documents graphiques, recherche d’information, séparation texte-graphique, filtrage, vectorisation, cartes de probabilité, points d’intérêts (SIFT), Bengla.
Par exemple, les images de cartes géographiques peuvent contenir des symboles, des graphiques et du texte avec des orientations et des tailles différentes. Dans ces documents, les caractères peuvent aussi être connectés entre eux ou bien à des éléments graphiques. Par conséquent, le repérage de mots dans ces documents se révèle être une tâche difficile.
Dans cette thèse nous proposons un ensemble d’outils dédiés aux images de documents géographiques pour le repérage de mots (keyword spotting). L’approche proposée repose sur plusieurs originalités. Premièrement, lors des prétraitements, nous proposons de générer une représentation structurelle de bas niveau du contenu des documents, séparant les éléments textuels des éléments graphiques. L’originalité ici vient du fait que l’information est produite à la fois au niveau pixel (par des méthodes de filtrage) et à un niveau structurel élémentaire (analyse et classification de composantes connexes). Par ailleurs, chaque niveau d’information aboutit à la création de cartes de probabilités au lieu de fournir pour chaque région de l’image une décision stricte (texte ou graphique). Ces cartes de probabilité peuvent être utilisées séparément ou agrégées pour extraire différents types d’information (identification de leur contenu, repérage de contenu textuel, etc.). Ces différentes approches et niveaux d’information ont été utilisés pour évaluer leur qualité pour une tâche de séparation entre la couche texte et la couche graphique. Elles ont été comparées avec différentes autres méthodes de la littérature, tant dans le domaine fréquence que dans le domaine spatial. Une fois cette description structurelle élémentaire obtenue (séparation texte-graphique), un niveau de description lexical est rajouté au document en séparant les éléments textuels connectés entre eux pour obtenir des caractères et les identifier par des classificateurs. Ici, des descripteurs invariants à l’échelle et à la rotation sont utilisés.
Partant de là, la méthode de spotting permettant la recherche d’un mot-clé procède en plusieurs étapes. L’initialisation s’effectue en recherchant au niveau lexical les éléments (caractères) correspondants à la requête et ayant été reconnus avec un bon taux de confiance par le classificateur. En effet, à cause de la complexité inhérente aux documents (dégradations, liaisons inter-caractères ou liaisons texte-graphique), certains caractères de la requête peuvent ne pas être identifiés clairement ou induire des ambiguités dans la recherche, ce que nous préférons éviter en premier abord. En partant de ces éléments textuels stables bien identifiés, et en prenant en compte leur position, taille et orientation, nous estimons les régions candidates correspondant aux parties manquantes de la requête. Afin d’identifier ces éléments manquants, nous utilisons une méthode à base de points d’intérêts pour confirmer leur présence dans les régions candidates.
Nous avons effectué des expérimentations à la fois sur des cartes numérisées en anglais et en bengali. Les résultats expérimentaux démontrent que la méthode est efficace pour repérer les mots ainsi que les emplacements dans des documents graphiques étiquetés par texte. Le jeu de données et la vérité terrain correspondante ont été rendus publics afin que d’autres chercheurs puissent se comparer et faire de nouvelles propositions.
Mots clefs: Analyse d’images de documents, repérage de mots (word spotting), documents graphiques, recherche d’information, séparation texte-graphique, filtrage, vectorisation, cartes de probabilité, points d’intérêts (SIFT), Bengla.