Gaël Lejeune, Maître de Conférences en Informatique

UFR de Sociologie et d'Informatique, laboratoire STIH, Sorbonne Université

Projet Antonomaz Séminaire de Linguistique Computationnelle

Actualités

  • 01/10/20 "Multilingual Epidemiological Text Classification: A Comparative Study", article accepté à COLING 2020, Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune and Moses Odeo
  • 01/10/20 "Daniel@FinTOC’2 Shared Task: Title Detection and Structure Extraction", article accepté à FNP-FNS@Coling2020, Emmanuel Giguet, Gaël Lejeune et Jean-Baptiste Tanguy
  • 11/09/20 Parution de l'ouvrage "Phraseology and Stylistics of Literary Language" (Peter Lang 2020) contenant notamment l'article "Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style" (A.Baledent, G.Lejeune)
  • 20/08/20 : "SinNer@CLEF-HIPE2020: Sinful Adaptation of SotA models for Named Entity Recognition in Historical French and German Newspapers", article accepté à CLEF-HIPE 2020, Pedro Ortiz, Yoann Dupont, Gaël Lejeune et Tian Tian
  • 31/07/20 : "Comparison between Voting Classifier and Deep Learning methods for Arabic Dialect Identification", article accepté à WANLP (workshop de Coling 2020), Dhaou Ghoul et Gaël Lejeune
  • 24/06/20 : "Comparaisons et combinaisons d'extracteurs d'entités spatiales sur un corpus multilingue", présentation à l'atelier Humanités Numériques Spatialisées Zijian Wang, Gaël Lejeune, Yoann Dupont et Tian Tian
  • 19/06/20 : "Daniel at the FinSBD-2 Task: Extracting List and Sentence Boundaries from PDF Documents, a model-driven approach to PDF document analysis" article à la shared task FINSBD2 (Sentence Boundary detection in Financial Documents), Emmanuel Giguet et Gaël Lejeune
  • 13/06/20 : L'équipe Sorbonne (D.Ghoul, G.Lejeune) 9ème/18 au challenge NADI de reconnaissance des dialectes arabes lien
  • 10/06/20 : Parution de "Le défigement : approche hybride linguistique et informatique" in "De la variation dans les langues: universaux partagés et idiomaticité systématique", 2020 éditions Letraria (pages 325-336)
  • 08/06/20 : Deuxième place sur deux tâches du DEFT 2020 (D.Buscaldi, G.Felhi, D.Ghoul, J.Le Roux, G.Lejeune et X.Zhang)
  • 08/06/20 : "Que recèlent les données textuelles issues du web ?", Présentation à Eternal (Adrien Barbaresi et Gaël Lejeune )
  • 05/06/20 : SinNER (Sorbonne and INria for Named Entity Recognition) Yoann Dupont, Gaël Lejeune, Pedro Ortiz et Tian Tian) se classe 3ème à CLEF-HIPE (NER en Allemand et Français sur des journaux anciens)
  • 11/05/20 : "Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?", article à Deft 2020 (JEP-TALN Nancy), Davide Buscaldi, Ghazi Felhi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune et Xudong Zhang
  • 02/04/20 : "Out-of-the-Box and Into the Ditch? Multilingual Evaluation of Generic Text Extraction Tools" article accepté au XIIème Web As Corpus (WAC) Workshop, LREC 2020 Adrien Barbaresi (BBAW Berlin) et Gaël Lejeune
  • 31/03/20 : "Bien choisir son outil d'extraction de contenu à partir du Web", démonstration acceptée à JEP-TALN 2020 (Nancy), Gaël Lejeune Adrien Barbaresi (BBAW Berlin)
  • 19/03/20 : "Traiter automatiquement les données textuelles dans le contexte des Humanités", séminaire de la licence Humanités Numériques (UFR HSS), Université de Caen
  • 10/03/20 : "Dating Ancient texts: an Approach for Noisy French Documents", article accepté à "Language Technologies for Historical and Ancient Languages (LT4HALA), Anaëlle Baledent (GREYC, Normandie Université), Nicolas Hiebel and Gaël Lejeune
  • 10/02/20 : "A Dataset for Multi-lingual Epidemiological Event Extraction", article accepté à LREC 2020 (Marseille), Stephen Mutuvi, Antoine Doucet, Gael Lejeune and Moses Odeo
  • 16/01/20 : "Journée d'études SIBON: Sociologie et Informatique", Amphithéâtre Molinié, Maison de la recherche
  • 27/11/19 : "Digital ou Numérique : un phénomène d'emprunt au cœur de la start-up nation ?", Poster aux Journées de Linguistique de Corpus, Grenoble
  • 25/11/19 : "Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach" Methoden zur Zusammenstellung und Erschließung von Korpusdaten, Académie des Sciences, Berlin
  • 02/11/19 : Démarrage de la thèse de Jean-Baptiste Tanguy "Acquisition semi-automatique et exploitation de données textuelles en français pré-classique" (encadrement G.Roe, K.Abiven, G.Lejeune), financement région DIM STCN
  • 10/10/19 : "Linguistique + Informatique = TAL ?", séminaire à l'école Polytechnique, Orsay
  • 15/07/19 : Daniel@fin-toc2019, avec Emmanuel Giguet première place sur l'extraction de table des matières
  • 11/07/19 : Summer School on Document Understanding (La Rochelle)
  • 02/07/19 : Deft 2019 @TALN
  • 19/06/19 : Présentation au colloque Les Discours de l'Imposture (TTN, Université Paris XIII)
  • 04/06/19 : Présentation au colloque Circulation des écrits littéraires de la première modernité & humanités numériques (ENS ULM), avec Karine Abiven
  • 27/05/19 : MICHAEL, système de reconnaissance de dialectes arabes @MADAR shared task 2019
  • 05/04/19 : Séminaire à l'OBVIL : analyse stylistique de textes littéraires
  • 21/03/19 : Projet Antonomaz, Séminaire LCSU
  • 14/03/19 : Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas avec Anaëlle Baledent, Phraseorom 2019 Erlangen
  • 07/03/19 : DOJO Deep Learning (Bi-LSTM) @Serpente
  • 04/03/19 : Evaluating Lightweight text classification for Arabic texts Article à Cicling 2019 avec Dhaou Ghoul et Lichao Zhu
  • 25/02/19 : Analyse automatique de documents anciens... Article dans la revue RIDOWS avec Karine Abiven
  • 11/01/19 : Antonomaz, datation de documents historiques bruités @CORLI 2019
  • 27/09/18 : Caractérisation de marqueurs de relations par classification non supervisée" LTT 2018, (Grenoble)
  • 24/09/18 : Séminaire de Linguistique Computationnelle "Simplexité et Complexité en TAL"
  • 10/04/18 : Tweetaneuse, système d'analyse de tweets Paris 13-Paris 4, sur le podium du DEFT 2018
  • 11/2016 : Best paper du Yearbook of Medical Informatics 2016

Enseignements

Mes supports 2020-2021 sont en ligne sur le moodle Sorbonne Université. Je suis responsable des cours suivants :

  • Licence 1 L2SOATEL (Ateliers professionnels)
  • Licence 2 L4SOINGE (Ingénierie de la Langue) avec Yoann Dupont
  • Licence 3 L5SOPROG (Programmation de Modèles Linguistiques (I) avec Carlos Gonzales
  • Master 1 M1SOL041 (Documents Electroniques) avec Vincent Lully
  • Master 1 M2SOL023 (Dictionnaires et néologismes) avec Françoise Guérin
  • Master 2 M3LS001P (Outils Informatiques de Conception et de Commercialisation)
  • Master 2 M4SOL040 (Terminologie et Stylométrie)
2020-2021 Sorbonne Université
L1 Sciences du Langage (S1)Epistémologie
L3 Sciences du Langage (S1)Programmation de Modèles Linguistiques I (Python)
Master Langue Française Appliquée (S1)Outils Informatiques
Master 1 Langue et Informatique (S1)Méthodologie en Langue et Informatique
Master 1 Langue et Informatique (S1)Documents Electroniques
Licence 1 (S2)PIX
L2 Sciences du Langage (S2)Ingénierie de la Langue
Master 1 Langue et Informatique (S2)Dictionnaires et Néologie
Master 2 Langue et Informatique (S2)Terminologie et Stylométrie
Hors Sorbonne :
L3 Informatique Caen (S1)Technologies du Langage
M2 Info La Rochelle (S1)Web Scrapping et Fouille de Textes
M2 Traduction Spécialisée Caen (S1)Traduction Assistée par Ordinateur (TAO)

- Mes expériences antérieures d'enseignement

Encadrement Doctoral

  • Depuis 2019, Jean-Baptiste Tanguy (co-encadrement Karine Abiven et Glenn Roe) : "L’accessibilité et l’exploitation des documents textuels numérisés" (Thèse Région Ile de France)
  • Depuis 2020, Caroline Parfait (co-encadrement Motasem Alrahabi et Glenn Roe) : "L’accessibilité et l’exploitation des documents textuels numérisés" (Thèse Sorbonne Center for Artificial Intelligence)

Mes encadrements de projets et mémoires (Licence et Master) sont recensés Ici

Situation

Depuis septembre 2017 je suis Maître de Conférences à Sorbonne Université (laboratoire STIH). Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes (CODAG), sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux portent principalement sur la question de la variation dans les données. La variation peut prendre différentes formes: la langue (multilinguisme), le genre de texte, le bruitage (par exemple pour des données issues d'OCR) et enfin la variation dans les tâches traitées. La question centrale de mes recherches a longtemps été de savoir comment traiter des données multilingues: traiter langue par langue ou trouver une approche plus large (notamment via des universaux de la langue). Mon travail sur la veille épidémiologique et sur l'analyse d'articles scientifiques (avec Béatrice Daille notamment) me font penser que traiter la variation en genre peut être une réponse aux problèmes posés par la variation en langue. La question du bruitage dans les données textuelles est venu plus tard, à travers des travaux sur l'extraction de contenu à partir du web (avec Romain Brixtel, Charlotte Lecluze, Emmanuel Giguet et Lichao Zhu) puis sur le traitement de documents PDF (Emmanuel Giguet, Karine Abiven et Jean-Baptiste Tanguy).

Mes interrogations sur les tâches traitées en TAL m'ont amené à élargir mes objets de recherche : classification de documents, détection automatique de néologismes, datation de documents, extraction de structure et stylométrie au sens large. J'ai également travaillé avec François Rioult sur la modélisation des interactions langagières dans les dialogues adultes-enfants, où l'on s'est posé la question de la redescription (ou de l'enrichissement) des données préalable au traitement automatique (voir l'HDR de François sur HAL).

J'accorde une importance particulière aux méthodes peu coûteuses en ressources et adaptées aux contextes multilingues. En particulier, je suis un fervent promoteur des analyses au grain caractère.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadrée par Nadine Lucas et Antoine Doucet, a pris la suite de mon stage de Master 2 effectué à l'Université d'Helsinki dans le cadre du projet PULS co-financé par l'Union Européenne. Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Parmi mes activités de recherche, j'organise le séminaire mensuel de Linguistique Computationnelle de STIH (consultez la page du séminaire) ainsi qu'au Coding Dojo hebdomadaire sur le Deep Learning featuring Alice Millour

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

La problématique du multilinguisme en TAL est une tâche difficile mais captivante puisqu'il s'agit de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Enfin, pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

  • Combien crois-tu qu'il existe de langues?
  • Cinq!
  • Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
  • Cinq, donc. Mais il y a aussi le flamand [...].
  • À ce compte-là ajoutons alors le danois!
  • Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
  • Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation (presque) sans interruption depuis 2011 au Défi Fouille de Textes (DEFT).

Comités

  • Comité de Lecture :
    • Association for Computational Linguistics : ACL (2017-2020), EMNLP (2018-2020), NAACL 2019, EACL 2021, IJCNLP 2020
    • LREC (2016-2020), COLING (2018, 2020), AAAI (2019-2020), NUSE 2020, ICADL(2020), CLEF-HIPE (2020), KDD (2016), Discovery Science (2016)
    • Information Processing and Management (Elsevier) 2018
    • Artificial Intelligence in Medicine (AIIM, 2017)
    • Transactions on Asian and Low-Resource Language Information Processing (TALLIP, 2017)
    • Recital (2015-2017)
  • Comité Scientifique : De l'épistémologie de la recherche à la méthodologie de la thèse (LILPA, Université de Strasbourg)
  • Comité d'organisation : Congrès Mondial de Traductologie 2017
  • Présidence de Session : JADT (2014), DEFT (2015), CMT (2017)

Publications

Dans ce fichier bibtex figurent mes références bibliographiques : 49 publications dont 20 en tant que premier auteur et 19 en tant qu'auteur à contribution égale. 9 publications de rang A selon le classement CORE (dont 5 workshops et 1 revue), 3 de rang B et 23 de rang C (dont 18 en workshop).

    2021

  1. Daniel at the FinSBD-2 Task: Extracting List and Sentence Boundaries from PDF Documents, a model-driven approach to PDF document analysis Emmanuel Giguet and Gaël Lejeune, Proceedings of the Second Workshop on Financial Technology and Natural Language Processing, p. 67-74 (Workshop de IJCAI 2021 ; CORE A), Bib - Pdf
  2. 2020

  3. Multilingual Epidemiological Text Classification: A Comparative Study Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, COLING 2020, p. to appear (CORE A), Bib - Pdf
  4. SinNer@CLEF-HIPE2020: Sinful Adaptation of SotA models for Named Entity Recognition in Historical French and German Newspapers Gaël Lejeune et Tian Tian Pedro Ortiz, CLEF 2020 Working Notes. Working Notes of CLEF 2020 - Conference and Labs of the Evaluation Forum, à paraître (3ème place du Défi), Bib - Pdf
  5. Calcul de similarité entre phrases : quelles mesures et quels descripteurs ? Davide Buscaldi and Ghazi Felhi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune and Xudong Zhang, DEFT@JEP/TALN/RECITAL 2020, p. 14-25 (2ème place sur deux tâches du défi), Bib - Pdf
  6. Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?) Adrien Barbaresi and Gaël Lejeune, JEP/TALN/RECITAL 2020, p. 19-28 (Workshop de TALN; CORE C), Bib - Pdf
  7. Daniel@FinTOC’2 Shared Task: Title Detection and Structure Extraction Gaël Lejeune Emmanuel Giguet and Jean-Baptiste Tanguy, 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation @COLING2020, p. to appear (Workshop de COLING; CORE A), Bib - Pdf
  8. Le défigement : approche hybride linguistique et informatique Lichao Zhu and Gaël Lejeune, De la variation dans les langues: universaux partagés et idiomaticité systématique, p. 325-336, Bib - Pdf
  9. A Dataset for Multi-lingual Epidemiological Event Extraction Stephen Mutuvi and Antoine Doucet and Gaël Lejeune and Moses Odeo, Proceedings of the 12th Language Resources and Evaluation Conference, p. 4139-4144 (CORE C), Bib - Pdf
  10. Dating Ancient texts: an Approach for Noisy French Documents Anaëlle Baledent and Nicolas Hiebel and Gaël Lejeune, Language Technologies for Historical and Ancient Langues (LT4HLA) @LREC2020, à paraître (Workshop de LREC; CORE C), Bib - Pdf
  11. Caractérisation de Marqueurs de Relation par Classification non Supervisée Luce Lefeuvre and Gaël Lejeune, proceedings of Lexique Terminologie et Traduction, p. to appear, Bib - Pdf
  12. Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style Anaëlle Baledent and Gaël Lejeune, Phraséologie et stylistique de la langue littéraire / Phraseology and Stylistics of the Literary Language, p. 329-342, Bib - Pdf
  13. Bien choisir son outil d’extraction de contenu à partir du Web (Choosing the appropriate tool for Web Content Extraction ) Gaël Lejeune and Adrien Barbaresi, JEP/TALN/RECITAL 2020, p. 46-49 (CORE C), Bib - Pdf
  14. Out-of-the-Box and into the Ditch? Multilingual Evaluation of Generic Text Extraction Tools Adrien Barbaresi and Gaël Lejeune, Proceedings of the 12th Web as Corpus Workshop, p. 5-13 (Workshop de LREC; CORE C), Bib - Pdf
  15. Comparison between Voting Classifier and Deep Learning methods for Arabic Dialect Identification Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fifth Arabic Natural Language Processing Workshop (WANLP 2020 @COLING2020), à paraître (Workshop de COLING; CORE A), Bib -
  16. 2019

  17. Evaluating Lightweight text classification and Information Extraction for Arabic texts Dhaou Ghoul and Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. to appear (CORE B), Bib -
  18. Indexation et appariements de documents cliniques pour le Deft 2019 Davide Buscaldi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2019, p. 49-56 (Workshop de TALN; CORE C), Bib - Pdf
  19. Daniel@FinTOC-2019 Shared Task : TOC Extraction and Title Detection Emmanuel Giguet and Gaël Lejeune, Proceedings of the Second Financial Narrative Processing Workshop (FNP 2019), p. 63-68 (1ère place sur la tâche d’extraction de Table des Matières), Bib - Pdf
  20. Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité Karine Abiven and Gaël Lejeune, Recherche d’information, document et web sémantique, à paraître, Bib - Pdf
  21. MICHAEL: Mining Character-level Patterns for Arabic Dialect Identification (MADAR Challenge) Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fourth Arabic Natural Language Processing Workshop, p. 229-233 (Workshop de ACL; CORE A*), Bib - Pdf
  22. Digital ou Numérique : un phénomène d’emprunt au cœur de la start-up nation ? Lichao Zhu and Gaël Lejeune, Journées de Linguistique de Corpus (JLC) 2019, à paraître, Bib - Pdf
  23. 2018

  24. A New Proposal for Evaluating Web Page Cleaning Tools Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. 1249-1258 (CORE B), Bib - Pdf
  25. Modèles en Caractères pour la Détection de Polarité dans les Tweets Davide Buscaldi and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2018, à paraître (1ère place sur la tâche de classification binaire; Workshop de TALN; CORE C), Bib - Pdf
  26. Analyse Diachronique de Corpus: le cas du poker Gaël Lejeune and Lichao Zhu, JADT, p. 444-451 (CORE C), Bib - Pdf
  27. 2017

  28. Character Based Pattern Mining for Neology Detection Lejeune Gaël and Cartier Emmanuel, Proceedings of Subword & Character Level Models in NLP (SCLeM), EMNLP 2017 Copenhagen, p. 25-30 (Workshop de EMNLP CORE A), Bib - Pdf
  29. TWEETANEUSE : Fouille de motifs en caractères et plongement lexical à l’assaut du DEFT 2017 Buscaldi Davide and Grezka Aude and Lejeune Gaël, Actes du 13e Défi Fouille de Texte, p. 65-76 (Workshop de TALN; CORE C), Bib - Pdf
  30. A System for Multilingual Online Neologism Tracking Kata Gábor Emmanuel Cartier and Thierry Charnois, Computacion y Sistemas, p. to appear (CORE B), Bib -
  31. 2016

  32. Highlighting Psychological Features for Predicting Child Interventions During Story Telling Gaël Lejeune and François Rioult and Bruno Crémilleux, INTERSPEECH 2016, à paraître (CORE A), Bib - Pdf
  33. Ambiguity Diagnosis for Terms in Digital Humanities Béatrice Daille and Evelyne Jacquey and Gaël Lejeune and Luis Felipe Melo and Yannick Toussaint, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), à paraître (CORE C), Bib - Pdf
  34. 2015

  35. Multilingual event extraction for epidemic detection Lejeune Gaël and Brixtel Romain and Doucet Antoine and Lucas Nadine, Artificial Intelligence in Medicine, à paraître (CORE A), Bib - Pdf
  36. Une approche stylométrique pour la fouille d’opinion Gaël Lejeune and Frédéric Dumonceaux, Actes de la 11e Défi Fouille de Texte, p. 12-15 (Workshop de TALN; CORE C), Bib - Pdf
  37. Vers un diagnostic d’ambiguïté des termes candidats d’un texte Gaël Lejeune and Daille Béatrice, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 446-452 (CORE C), Bib - Pdf
  38. Évaluation intrinsèque et extrinsèque du nettoyage de pages Web Gaël Lejeune and Romain Brixtel and Charlotte Lecluze, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 411-417 (CORE C), Bib - Pdf
  39. Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel and Charlotte Lecluze and Gaël Lejeune, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 208-219 (CORE C), Bib - Pdf
  40. 2014

  41. DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française Charlotte Lecluze and Gaël Lejeune, Actes de DEFT 2014 : 10ème DÉfi Fouille de Textes, p. 11-19 (Workshop de TALN; CORE C), Bib - Pdf
  42. Apports de l’analyse automatique multilingue pour la veille épidémiologique Gaël Lejeune and Charlotte Lecluze and Romain Brixtel and Antoine Doucet, JADT, p. 297-308 (CORE C), Bib - Pdf
  43. 2013

  44. Added-value of automatic multilingual text analysis for epidemic surveillance Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine (AIME), p. 284-294 (CORE A), Bib - Pdf
  45. Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel Gaël Lejeune, Université de Caen, à paraître, Bib - Pdf
  46. DEFT2013, une cuisine de caractères Gaël Lejeune and Charlotte Lecluze and Romain Brixtel, Actes de DEFT 2013 : 9e DÉfi Fouille de Textes, p. 29-36 (Workshop de TALN; CORE C), Bib - Pdf
  47. Any Language Early Detection of Epidemic Diseases from Web News Streams Romain Brixtel and Gaël Lejeune and Antoine Doucet and Nadine Lucas, International Conference on Healthcare Informatics (ICHI), p. 159-168 (Taux d’acceptation 22 %), Bib - Pdf
  48. Vers une approche rhétorique en TAL : application à la veille épidémiologique multilingue Brixtel Romain Durieux Christine and Lejeune Gaël, Des mots aux actes, p. 151-167, Bib - Pdf
  49. Détection de zones parallèles à l’intérieur de bi-documents pour l’alignement multilingue Charlotte Lecluze and Romain Brixtel and Loïs Rigouste and Emmanuel Giguet and Régis Clouard and Gaël Lejeune and Patrick Constant, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2013), p. 381-394 (CORE C), Bib - Pdf
  50. DAnIEL : Veille épidémiologique multilingue parcimonieuse (démonstration) Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, TALN 2013, p. 787-788 (CORE C), Bib - Pdf
  51. 2012

  52. Détection de mots-clés par approches au grain caractère et au grain mot (Keywords extraction by repeated string analysis) \[in French\] Gaëlle Doualan and Mathieu Boucher and Romain Brixtel and Gaël Lejeune and Gaël Dias, JEP-TALN-RECITAL 2012, Atelier DEFT 2012: DÉfi Fouille de Textes, p. 41-48 (Workshop de TALN; CORE C), Bib - Pdf
  53. DAnIEL : Language Independent Character-Based News Surveillance Gaël Lejeune and Brixtel Romain and Doucet Antoine and Lucas Nadine, JapTAL 2012, p. 343-348, Bib - Pdf
  54. 2011

  55. Deft 2011: appariements de résumés et d’articles scientfiques fondés sur des distributions de chaînes de caractères Gaël Lejeune and Romain Brixtel and Emmanuel Giguet and Nadine Lucas, Proceedings of DEfi Fouille de Texte (DEFT’11), p. 53-64 (Workshop de TALN; CORE C), Bib - Pdf
  56. 2010

  57. Filtering news for epidemic surveillance: towards processing more languages with fewer resources Gaël Lejeune and Antoine Doucet and Roman Yangarber and Nadine Lucas, CLIA/COLING, p. 3-10 (Workshop de COLINg; CORE A), Bib - Pdf
  58. Tentative d’analyse multilingue en Extraction d’Information Gaël Lejeune and Antoine Doucet and Nadine Lucas, JADT, p. 1259-1268 (CORE C), Bib - Pdf
  59. A Proposal for a Multilingual Epidemic Surveillance System Gaël Lejeune and Mohamed Hatmi and Antoine Doucet and Silja Huttunen and Nadine Lucas, User Centric Media, p. 343-348, Bib - Pdf
  60. 2009

  61. Structure patterns in Information Extraction:a multilingual solution? Gaël Lejeune, Advances in methods of Information and Communication TechnologyAMICT09, p. 105-111, Bib - Pdf

Communications sans publication des actes

2018-2020

  1. Sociologie de l'Informatique, Informatique de la Sociologie : Analyse des titres de thèse de Sociologie, avec Hugo Jeaningros (Sorbonne Université), JE SIBON, Paris 2020
  2. Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach, Methoden zur Zusammenstellung und Erschließung von Korpusdaten, Académie des Sciences (BBAW), Berlin
  3. Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
  4. Illusions Artificielles et Réelles Impostures conférence invitée Les Discours de l'Imposture 19/06/2019 (TTN, Université Paris XIII)
  5. Traiter par le TAL un ensemble de textes redondant, hétérogène et bruité : autour du projet AnTOnoMAZ , Circulation des écrits littéraires de la première modernité & humanités numériques 05/06/2019 (ENS ULM), avec Karine Abiven
  6. Analyse stylistique de textes littéraires, Séminaire du Labex OBVIL, Paris, 5 avril 2019
  7. Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas, Phraseorom, avec Anaëlle Baledent, Phraseorom 2019, Erlangen, Allemagne
  8. Caractérisation de marqueurs de relations par classification non supervisée, Lexique Terminologie Traduction (LTT), avec Luce Lefeuvre, Grenoble, 27 septembre 2018
  9. Analyse Automatique des Mazarinades : tirer profit d'un corpus bruité, Atelier ADOC, 28 mai 2018 (avec Karine Abiven)
  10. Veille épidémiologique, réagir à temps grâce à la couverture multilingue, Jeudis de Santé Publique France, 24 mai 2018
  11. 2013-2017

  12. Découverte automatique multilingue de néologismes dans la presse en ligne Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  13. Figement et Créativité Computationnelle Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  14. Intrinsic and Extrinsic Evalution of Web Page Cleaning Présentation à ISWAG (International Symposium on Web Algorithms), Deauville, 9 juin 2016
  15. La linguistique pour le TAL : au service de la simplexité ? Présentation invitée à la journée d'études "Linguistique et Complexité", Lilpa -- Université de Strasbourg, 13 novembre 2015
  16. Méthodes robustes et parcimonieuses pour l’analyse des données textuelles, séminaire L3I, La Rochelle, 26 mars 2015
  17. Approche du TAL fondée sur le genre textuel, séminaire ATAL, Nantes, 21 octobre 2014
  18. Multilingual Epidemic Surveillance: a parsimonious character-based approach, séminaire de la société My Script, Nantes, 28 août 2014
  19. Multilingual Epidemic News Surveillance: covering the earth for timely alerts, Avec Antoine Doucet, conférence invitée au Festival International de la Science (Vetenskapsfestivalen) 2014 "Act, React, Interact", Göteborg, 9 mai 2014 Flyer
  20. 2009-2012

  21. Propositions pour une fouille de texte collaborative spécialisée dans le domaine des arts, avec Emmanuel Zwenger, Communication aux journées d'études du Bulletin Signalétique des Arts Plastiques (BSAP), Ecole Nationale Supérieure des Beaux Arts de Lyon, février 2012
  22. Pour une approche cibliste en TAL: le cas de l'analyse automatique de la presse, avec Christine Durieux, communication au Colloque International Rhétorique et Traduction, Orléans janvier 2012
  23. Ce que le texte peut dire au TAL, Communication aux journées scientifiques du CRISCO Ce que le texte fait à la phrase, Caen, décembre 2009 bibtex Pdf

Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Téléchargez ici le manuscrit ou le fichier bibtex

Thèse soutenue le 16 octobre 2013 devant un jury composé de :

  • ... non crédités au générique mais décisifs tout au long de cette thèse, mes associés Romain Brixtel et Charlotte Lecluze. Big Up dudes

Cette thèse propose une méthodologie pour traiter le problème du multilinguisme dans le cadre de tâches de classification et de recherche d'information. L'idée de base de notre travail est de définir une approche aussi peu dépendante des langues que possible de manière à faciliter la factorisation et ainsi l'extension du système à de nouvelles langues. En effet, les systèmes combinant Recherche d'Information et Extraction d'Information (EI) ont cruellement besoin de filtrer de grandes quantités de données dans un grand nombre de langues (voir par exemple Medisys).

Les systèmes classiques d'EI ne permettent pas à l'heure actuelle de faire face à ces enjeux du fait de leur dépendance à des outils (lemmatiseurs, analyseurs syntaxiques...) et autres ressources lexicales complexes (dictionnaires, ontologies...). Certaines langues peu dotées en ressources sont par la force des choses laissées de côté. Notre approche vise à combler ces manques. Elle a abouti à la conception de Daniel, notre système de veille épidémiologique multilingue . À ce jour, Daniel (Data Analysis for Information Extraction in any Language) a été testé, avec succès, sur 17 langues dont le chinois, le finnois et l'arabe.

Le développement de Daniel, système d'Extraction d'Information Multilingue, vise à combler ces manques. Il utilise les propriétés du genre journalistique et se base sur une analyse au grain caractère. De cette façon l'extension de Daniel vers de nouvelles langues se fait à coût marginal minimal.

Nous avons expérimenté cette approche sur d'autres tâches dans le cadre des Défis Fouille de Texte (DEFT) 2011 et 2012. En 2011 dans la tâche d'appariement de résumés et d'articles scientifiques nous avons atteint la première place ex-aequo. En 2012 dans la tâche d'extraction de mots-clés nous avons atteint la troisième place.

Enfin, en utilisant Daniel nous avons pu évaluer par la tâche des outils de nettoyage de page web. L'idée de ces expériences est de voir comment la qualité de ce nettoyage, que nous nommons "détourage", influence les résultats du système placé en aval.

Parcours professionnel

  • 2017-... : Maître de Conférences en Informatique (Sorbonne Université) au sein du laboratoire STIH
  • 2016-2017 : post-doctorant au LIPN (Paris XIII), "Détection Automatique de Néologismes"
  • 2015-2016 : post-doctorant au GREYC (Caen), "Event prediction for dialogue modelling"
  • 2014-2015 : ATER à l'Université de Nantes (Faculté des Sciences)
  • 2013-2014 : ATER à l'IUT de Cherbourg (Antenne de Saint-Lô, département MMI)
  • 2010-2013 : Doctorant au GREYC (Caen, Bourse ministérielle)
  • 2009-2010 : Ingénieur de recherche GREYC (Caen), "Veille Multilingue"
  • 2009 : Ingénieur de recherche Computer Science Dpt. (Helsinki), "PULS Project"
  • En dehors de la recherche en informatique:
    • 2005 à 2010, Prof particulier en Lettres, Mathématiques et méthodologie (collège, lycée)
    • 2002 à 2009, Surveillant d'Externat, Académie de Caen
    • 2006 et 2007, Directeur adjoint logistique en CLSH, Ligue de l'enseignement
    • 2000 à 2007, Initiateur et entraineur du jeu d'échecs, Club d'échecs Caen Alekhine
    • 1997 à 2008, Expertises sur lignes téléphoniques, CBS puis Rea-Immo

Perso

Programmation

Je suis un Pythoniste assidu même s'il peut m'arriver de concevoir des projets en PHP ou Javascript.

Bouquins

Un peu de tout, de l'utilitaire (sciences, chroniques historiques, essais,...) au superfétatoire (Anticipation, Héroïc Fantasy...)

Les échecs

Mon principal fait d'armes est d'avoir empoché avec mon collègue Dr. Romain Brixtel et deux acolytes nord-cotentinois le tournoi national des Universités et grandes écoles 2006 au nez et à la barbe d'HEC, Polytechnique, Centrale, Dauphine, Sciences Po...

Small world

Morphy number5
Kasparov number4
Erdös number 5
Bacon Number 3
Pelé Number (invention?)4