News
You are here : English versionNewsNews

LIFAT Defense - Caroline Pasquer

Dates

on the November 13, 2019

Mercredi 13 novembre 2019 a 9h
Location
LIFAT - UFR science
Amphi 3 -  Site Jean Jaures - Blois

PASQUER Caroline - Titre :Garder la trace, mettre de l'ordre et relier les points: modéliser la variation et les ambiguités dans les expressions polylexicales

Résumé : L’identification automatique d’expressions polylexicales (EP) est un pré-requis pour de nombreuses applications de traitement automatique des langues. Cette tâche représente un défi car les EP, et en particulier les verbales (EPV) telles que 'casser sa pipe' (signifiant 'mourir'), ont des formes de surface très variables ('cassera-t-il un jour sa pipe ?'). Cependant, comparée à des constructions libres, cette variabilité est généralement plus restreinte (p. ex. certains noms non modifiables par un adjectif), d’où des profils de variabilité distincts. On se penche ici sur un sous-problème de l’identification d’EPV, à savoir l’identification d’occurrences d’EPV vues dans d’autres contextes, quelque soit leur forme de surface, ce qui nécessite de prendre en compte l’ambiguïté pour éviter des lectures littérales ('casser sa vieille pipe') ou des co-occurrences fortuites ('casser le tuyau de sa pipe'). On considère pour cela deux approches : la première se fonde sur une mesure de la variabilité des EPV indépendante de la langue. La seconde consiste à modéliser le problème comme une tâche de classification d’après des traits pertinents pour la variabilité morpho-syntaxique des EPV, ce qui nous a conduit à développer un système (VarIDE), qui a participé à la compétition PARSEME d’identification automatique d’EPV en 2018.

Mots clés : Expression polylexicale, variabilité, ambiguïté, traitement automatique des langues

Abstract : Automatic identification of multiword expressions (MWEs) is a pre-requisite for many natural language processing applications. This task is challenging because MWEs, especially verbal ones (VMWEs) like 'to kick the bucket' (which means 'to die'), exhibit surface variability ('no buckets were kicked'). However, compared with regular constructions, this variability is usually more restricted (e.g. some nouns cannot be modified by an adjective), hence various variability profiles. We address here a subproblem of VMWE identification, namely the identification of occurrences of VMWEs previously seen in corpora, whatever their surface form, which requires to take ambiguity into account to avoid literal ('he kicked the old bucket') or coincidental occurrences ('he kicked the ball and the bucket fell down'). To this end, we considered two main approaches : The first one is based on a language-independent measure of VMWE variability. The second one consists in modeling the problem as a classification task on the basis of features relevant to the VMWE morpho-syntactic variability, which led to a system (VarIDE) that participated in the PARSEME shared task on automatic identification of VMWEs in 2018.

Keywords : Multiword expression, MWE, variability, ambiguity, natural language processing