Situation
Affilié au laboratoire Sens Texte informatique Histoire (STIH), je suis également membre de l'équipe-projet SCAI/OBTIC et membre fondateur de l'Unité de Service CERES
Depuis septembre 2017 je suis Maître de Conférences à Sorbonne Université. Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes (CODAG), sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).
Mes travaux portent principalement sur la question de la variation dans les données. La variation peut prendre différentes formes: la langue (multilinguisme), le genre de texte, le bruitage (par exemple pour des données issues d'OCR ou de Web Scraping) et enfin la variation dans les tâches traitées.
La question centrale de mes recherches a longtemps été de savoir comment traiter des données multilingues: traiter langue par langue ou trouver une approche plus large (notamment via des universaux de la langue).
Mon travail sur la veille épidémiologique et sur l'analyse d'articles scientifiques (avec Béatrice Daille notamment) me font penser que traiter la variation en genre peut être une réponse aux problèmes posés par la variation en langue, les propriétés du genre textuel constituant des invariants fiables.
La question du bruitage dans les données textuelles est venue plus tard, à travers des travaux sur l'extraction de contenu à partir du web (avec Romain Brixtel, Charlotte Lecluze, Adrien Barbaresi, Emmanuel Giguet et Lichao Zhu) puis sur le traitement de documents PDF (Emmanuel Giguet, Karine Abiven et Jean-Baptiste Tanguy).
Mes interrogations sur les tâches traitées en TAL m'ont amené à élargir mes objets de recherche : classification de documents, détection automatique de néologismes, datation de documents, extraction de structure et stylométrie au sens large. J'ai également travaillé avec François Rioult sur la modélisation des interactions langagières dans les dialogues adultes-enfants, où l'on s'est posé la question de la redescription (ou de l'enrichissement) des données préalable au traitement automatique (voir l'HDR de François sur HAL).
J'accorde une importance particulière aux méthodes peu coûteuses en ressources et adaptées aux contextes multilingues. En particulier, je suis un fervent promoteur des analyses au grain caractère.
J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel".
Cette thèse, encadrée par Nadine Lucas et Antoine Doucet, a pris la suite de mon stage de Master 2 effectué à l'Université d'Helsinki dans le cadre du projet PULS co-financé par l'Union Européenne. Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.
Parmi mes activités de recherche, j'organise le séminaire mensuel de Linguistique Computationnelle de STIH (consultez la page du séminaire) ainsi que le Coding Dojo de printemps consacré au Deep Learning featuring Alice Millour
Intérêts scientifiques
Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).
La problématique du multilinguisme en TAL est une tâche difficile mais captivante puisqu'il s'agit de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles.
A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques.
Enfin, pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :
- Combien crois-tu qu'il existe de langues?
- Cinq!
- Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
- Cinq, donc. Mais il y a aussi le flamand [...].
- À ce compte là ajoutons alors le danois!
- Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
- Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!
Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation (presque) sans interruption depuis 2011 au Défi Fouille de Textes (DEFT).