Gaël Lejeune, Maître de Conférences HDR en Informatique

UFR de Sociologie et d'Informatique, laboratoire STIH, Sorbonne Université

Actualités

06/07/26 : "Quantifying Literary Style: A Corpus-Based Study", article accepté à CLIB 2026, avec Iglika Nikolova-SToupak et Eva Lacroix
02/07/26 : "Inferring technological maturity from text : a descriptive study", travail de Mélusine Caillard présenté à Confere 2026 aevc Mélusine Caillard, Améziane Aoussat et Pierre-Emmanuel Fayemi
02/07/26 : "NLP-based fraud detection on a French public benefits platform: the technical, organisational and regulatory context", Soutenance de Thèse d'Alicia Bredenstein Télécom Paris (examinateur)
03/06/26 : Trois articles à TALN 2026 dans la catégorie travaux publiés: "How I Met Your Snowclone: Unsupervised Discovery of Snowclone Patterns in Large Datasets" (LREC 2026), "Epimethee – A Workflow from OCR to Spatial Mapping "(ICDAR 2025) et "GDN-CC : un jeu de données pour la clarification automatique de corpus de consultations citoyennes assistées par l’IA" (ACL 2026)
08/05/26 : "Europarser : un outil open-source pour collecter, structurer et exploiter de grands corpus de presse", article accepté à JADT 2026 (CORE C) avec Marceau Hernandez, Félix Alié, Emile Rebours et Julien Bezançon
08/05/26 : "Discourse structure across technological maturity levels: a textometric approach", article accepté à JADT 2026 (CORE C) avec Mélusine Caillard
13/04/26 : Table Ronde "Usage de l'IA en traduction journalistique : enjeux éthiques, juridiques, sociaux et environnementaux" avec Gaële Gagné (SFT), Sophie Huët (AFP) et Cyrle Laumonier (ISIT)
13/04/26 : Atelier Participatif: Traduction Automatique par IA générative avec Pascale Elbaz (ISIT)
06/04/26 : "The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations", article accepté à ACL 2026 (CORE A*) avec Pierre-Antoine Lequeu, Léo Labat, Laurène Cave, François Yvon et Benjamin Piwowarski
01/04/26 : "Learning and Recognizing Latent Innovation Maturity Indicator Patterns in Texts", article accepté à ICPR 2026 (CORE B) avec Mélusine Caillard, Pierre-Emmanuel Fayemi et Aoussat Améziane
30/03/26 : Jury de Thèse de Tanguy Herserant (rapporteur) sur l'évaluation des systèmes de résumé automatique
27/03/26 : "A Vocabulary Analysis of News Articles in Relation to the Political Orientation of Their Source and their Thematic", article accepté à PoliticalNLP@LREC 2026 (Core B) avec Laurène Cave
19/03/26 : "Automatic Generation of Graded Texts in Old Church Slavonic", article accepté à DETERMIT@LREC 2026 (Core B) avec Iglika Nikolova-Stoupak et Eva Schaeffer-Lacroix
05/03/26 : "Des IA pour les Humanités : opportunité(s) ou opportunisme ", Séminaire Numérique pour l’Éducation, Poitiers; Lien
05/03/26 : Traduction automatique, perte de sens ? IApéro, expérimentation IA - humain avec François Sabourin Lien
13/02/26 : "How I Met Your Snowclone: Unsupervised Discovery of Snowclone Patterns in Large Datasets", article accepté à LREC 2026 (Core B) avec Julien Bezançon et Marceau Hernandez
21/01/26 : "Preprocessing in NLP, what is it good for ?", Séminaire dans le Master NLP, IDMC, Nancy
15/12/25 : "Assessing the Impact of Image Resolution on OCR Transcription Accuracy", article accepté à LangArc@JCDL2025 (International Workshop on Digital Language Archives) avec Toufik Boubehziz et Caroline Koudoro-Parfait
12/12/25 : Journée d'études AFCP-AFIA-ATALA Technologies linguistiques pour les langues peu dotées (Lien) co-organisée avec Loïc Grobol et Marie Tahon
14/11/25 : Soutenance de Thèse de Julien Bezançon : "Extraction automatique d’expressions multi-mots défigées : une approche frugale, multilingue et explicable", thèse co-dirigée avec G. Siouffi et A. Gautier
10/10/25 : "La variation linguistique en traitement automatique des Langues : obstacle technique ou opportunité méthodologique ?" séminaire DILTEC (Sorbonne Nouvelle), Lien
30/09/25 : Jury de Thèse de Wenjun Sun (< ahref='https://theses.fr/182283054'>rapporteur) sur la segmentation d'articles dans la presse numérisée
01/09/25 : Ecole d'été ETAL organisée à Roscoff avec Benjamin Piwowarski et laure Soulier sur les dernières approches en TAL, TAP et traitement multimodal (Lien), 36 participants
22/08/25 : Article For a Fistful of Puns: Evaluating a Puns in Multiword Expressions Identification Algorithm Without Dedicated Dataset accepté à la conférence EMNLP (CORE A), avec Julien Bezançon
30/06/25 : Deux articles à TALN 2025 : "Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe " avec Rimane Karam et Julien Bezançon et "Comment mesurer les biais politiques des grands modèles de langue multilingues? " avec Paul Lerner, Laurène Cave, Hal Daumé, Léo Labat, Pierre-Antoine Lequeu, Benjamin Piwowarski, Nazanin Shafiabadi et François Yvon (projet Communs Démocratiques)
06/06/25 : Article Epiméthéé : a workflow from OCR to spatial mapping accepté à la conférence ICDAR (CORE A), avec Caroline Koudoro-Parfait, Marceau Hernandez et Yoann Dupont
05/06/25 : Article "Automatic Generation of a Graded Reader in Old Church Slavonic" accepté à la conférence Innovation in Language Learning, avec Iglika Nikolova-Stoupak et Eva Lacroix
05/06/25 : Présentation à #SUm'EVENT 2025 de mes travaux avec CERES et STIH
16/05/25 : "Forbidden FRUIT is the Sweetest: An Annotated Tweets Corpus for French Unfrozen Idioms Identification", article accepté à LAW 2025 (workshop d'ACL 2025) avec Julien Bezançon, Antoine Gautier, Félix Alié et Marceau Hernandez
06/05/25 : "Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe", article accepté à TALN 2025 (avec Julien Bezançon et Rimane Karam)
24/04/25 : Séminaire de linguistique computationnelle : "Genres textuels et caractéristiques stylistiques pour la classification"
02/04/25 : Démarrage de la thèse CIFRE de Mélusine Caillard avec la Société IKOS Consulting"
24/03/25 : Soutenance de la thèse de Corina Chutaux, intitulée "Art, Littérature et Intelligence Artificielle - Sur le chemin de la dématérialisation"
01/01/25 : Démarrage officiel du Cluster IA PostGenAI@Paris : lien

En savoir plus sur ma recherche

Enseignements

Mes supports 2024-2025 sont en ligne sur le moodle Sorbonne Université. Je suis responsable des cours suivants :

Licence 2 L4SOINGE (Ingénierie de la Langue) avec Rimane Karam
Licence 3 L5SOIADT (IA pour les Données Textuelles) avec Rimane Karam
Master 1 M2SOL024 (Programmation pour le TAL (PROTAL))
Master 2 M3SOL025 (M3SOL025 - Paradigmes d’évaluation en TAL (PETAL))
Master 2 M4SOL305 (Représentations Vectorielles et Similarité (REVErSIM))
Master 1/2 M4LFHUNU (Humanités Numériques)

2024-2025 Sorbonne Université (Décharge de service de 50%)
L3 Sciences du Langage (S1)	Programmation de Modèles Linguistiques I (Python)
L2 Sciences du Langage (S2)	Ingénierie de la Langue
Master 1 Langue et Informatique (S2)	Dictionnaires et Néologie
Master 2 Langue et Informatique (S1)	Plateformes pour le TAL
Master 2 Langue et Informatique (S2)	Terminologie et Stylométrie

- Mes expériences antérieures d'enseignement

Encadrement Doctoral

Depuis avril 2025, Mélusine Caillard (thèse CIFRE encadrée à 50% avec Aoussat Améziane ) : Modélisation sémantique et prédictive pour la détection des tendances émergentes et l'analyse prospective dans des corpus multi-sources
Depuis novembre 2024, Laurène Cave (encadrement à 100% ) : Intelligence artificielle pour la démocratie : aide à la rédaction pilotée par des LLM (bourse BPI/Sorbonne Université)
Depuis octobre 2024, Xavier Beckers (co-encadrement 50% avec Karine Abiven) : Lecture distante d'écrits colportés : questionner la variation du français de la première modernité (bourse du programme SOUND du Sorbonne Center for Artificial Intelligence)
Depuis octobre 2024, Marceau Hernandez (co-encadrement 50% avec Karine Abiven) : Analyse de la circulation de chansons par similarité multimodale dans des textes français des 17e-18e siècles (bourse méthodes numériques pour les SHS)
Depuis octobre 2023, Iglika Nikolova-Stoupak (co-encadrement 50% avec Eva Schaeffer-Lacroix) : "Production de versions abrégées de textes littéraires : une approche multilingue"

Thèses soutenues :

Julien Bezançon (co-encadrement 33% avec Antoine Gautier et Gilles Siouffi) : "Extraction automatique d'expressions multi-mots défigées : une approche frugale, multilingue et explicable", soutenue le 14/11/2025
Caroline Koudoro-Parfait (co-encadrement 33% avec Motasem Alrahabi et Glenn Roe) : "Literary space analysis: Machine learning and evaluation of recognition systems of named entities" (Thèse Sorbonne Center for Artificial Intelligence), soutenue le 06/01/2025
Jean-Baptiste Tanguy (co-encadrement 33% avec Karine Abiven et Glenn Roe) : "L’accessibilité et l’exploitation des documents textuels numérisés" (Thèse Région Ile de France), thèse soutenue le 16 septembre 2022
Steve Mutuvi (encadrant scientifique, thèse dirigée par Antoine Doucet et Moses Odeo) : "Epidemic Event Extraction in Multilingual and Low-resource Settings", soutenue le 21 novembre 2022
Khoa Nguyen à la Banque Postale (encadrant scientifique, dirigé par Antoine Doucet et Thierry Delahaut) : "Emerging Theme Detection from Reliable News Articles" (Thèse CIFRE La Banque Postale), soutenue le 27 février 2023

Thèses pour lesquelles je suis entré dans l'encadrement en cours de thèse:

Rimane Karam (principalement dirigée par Iyas Hassan et Julien Dufour) : "Grammaire du moyen arabe levantin, XVIIIe-XXe siècles. Analyse de grands corpus en littérature populaire arabe et développement des outils de textométrie adaptés.", soutenance prévue fin 2026
Ljudmila Petkovic (principalement dirigée par Glenn Roe et Motasem Alrahabi : "Dans les petits papiers de Charcot : de l'expérimentation aux prémisses de la neurologie moderne", soutenance prévue fin 2026

J'ai également encadré la fin de la thèse de Corina Chutaux dont le titre était "Art, littérature et Intelligence Artificielle. Sur le chemin de la dématérialisation", thèse soutenue le 24 mars 2025

Mes encadrements de stages, projets et mémoires sont recensés Ici

Responsabilités

Au sein de Sorbonne Université

Directeur adjoint de l'Unité de Services CERES (Centre d'Expérimentation en méthodes numériques pour les Recherches en SHS)
Chargé de Mission "Numérique" auprès du décanat de la Faculté des Lettres
Référent égalité pour l'UFR de Sociologie et d'Informatique pour les Sciences Humaines
Membre du Conseil de la Faculté des Lettres de Sorbonne Université
Organisateur du Séminaire de l'équipe "Variation Linguistique et Linguistique Computationnelle" de STIH (Lien)
Anciennement :

Directeur adjoint de l'UFR de Sociologie et d'Informatique pour les Sciences Humaines (2021-2025)
Directeur des études de la Licence Sciences du Langage (2018-2022)
Chargé des admissions E-candidat, Campus France et ParcourSup pour la licence (2019-2022)

Hors Sorbonne Université

Membre élu du CA de l'ATALA
Membre du comité de rédaction du Bulletin de l'AFIA (rédacteur des bulletins 113, 117 et 121)
Membre de l'Action Prospective Humanités Numériques Spatialisées du GDR Magis
Membre des Comité de Sélection MCF 441 (2019, Sorbonne Université/STIH) et MCF 158 (2021, Université Paris X/Modyco)
Membre de deux comités de recrutement du Labex Empirical Foundation of Linguistics
Anciennement :

Membre du directoire du DIM Sciences du Texte et Connaissances Nouvelles (2019-2022)

Comités de Programme

Association for Computational Linguistics : ACL (2017-2022), EMNLP (2018--2022), NAACL (2019-2021), IJCNLP (2020), EACL (2021)
TALN (2025), LREC (2016-), COLING (2018-), AAAI (2019-2020), CORIA (2024-), NUSE (2020), ICADL(2020), CLEF (2020), KDD (2016), Discovery Science (2016)
Natural Language Engineering (NLE) journal 2022
Revue Traitement Automatique des Langues (TAL) 2022-
International Journal on Digital Libraries (IJDL) 2021
Revue d'Histoire des Mathématiques (RHM) 2021
Knowledge and Information Systems Journal (KAIS) 2021
Journal of the Association for Information Science and Technology (JASIST) 2020
Information Processing and Management (IPM) 2018
Artificial Intelligence in Medicine (AIIM) 2017
Transactions on Asian and Low-Resource Language Information Processing (TALLIP) 2017

Comité Scientifique : De l'épistémologie de la recherche à la méthodologie de la thèse (LILPA, Université de Strasbourg)
Comité d'organisation : JE TAL Frugal 2024, TALN 2023, RobusTAL (Robustesse des systèmes de TAL), 2022, 1er Congrès Mondial de Traductologie 2017
Présidence de Session : JADT (2014), DEFT (2015), CMT (2017)

Situation

Affilié au laboratoire Sens Texte informatique Histoire (STIH), je suis également membre de l'équipe-projet SCAI/OBTIC et membre fondateur de l'Unité de Service CERES

Depuis septembre 2017 je suis Maître de Conférences à Sorbonne Université. Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes (CODAG), sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux portent principalement sur la question de la variation dans les données. La variation peut prendre différentes formes: la langue (multilinguisme), le genre de texte, le bruitage (par exemple pour des données issues d'OCR ou de Web Scraping) et enfin la variation dans les tâches traitées. La question centrale de mes recherches a longtemps été de savoir comment traiter des données multilingues: traiter langue par langue ou trouver une approche plus large (notamment via des universaux de la langue). Mon travail sur la veille épidémiologique et sur l'analyse d'articles scientifiques (avec Béatrice Daille notamment) me font penser que traiter la variation en genre peut être une réponse aux problèmes posés par la variation en langue, les propriétés du genre textuel constituant des invariants fiables. La question du bruitage dans les données textuelles est venue plus tard, à travers des travaux sur l'extraction de contenu à partir du web (avec Romain Brixtel, Charlotte Lecluze, Adrien Barbaresi, Emmanuel Giguet et Lichao Zhu) puis sur le traitement de documents PDF (Emmanuel Giguet, Karine Abiven et Jean-Baptiste Tanguy).

Mes interrogations sur les tâches traitées en TAL m'ont amené à élargir mes objets de recherche : classification de documents, détection automatique de néologismes, datation de documents, extraction de structure et stylométrie au sens large. J'ai également travaillé avec François Rioult sur la modélisation des interactions langagières dans les dialogues adultes-enfants, où l'on s'est posé la question de la redescription (ou de l'enrichissement) des données préalable au traitement automatique (voir l'HDR de François sur HAL).

J'accorde une importance particulière aux méthodes peu coûteuses en ressources et adaptées aux contextes multilingues. En particulier, je suis un fervent promoteur des analyses au grain caractère.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadrée par Nadine Lucas et Antoine Doucet, a pris la suite de mon stage de Master 2 effectué à l'Université d'Helsinki dans le cadre du projet PULS co-financé par l'Union Européenne. Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Parmi mes activités de recherche, j'organise le séminaire mensuel de Linguistique Computationnelle de STIH (consultez la page du séminaire) ainsi que le Coding Dojo de printemps consacré au Deep Learning featuring Alice Millour

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

La problématique du multilinguisme en TAL est une tâche difficile mais captivante puisqu'il s'agit de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Enfin, pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

Combien crois-tu qu'il existe de langues?
Cinq!
Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
Cinq, donc. Mais il y a aussi le flamand [...].
À ce compte là ajoutons alors le danois!
Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation (presque) sans interruption depuis 2011 au Défi Fouille de Textes (DEFT).

Publications

Dans ce fichier bibtex figurent mes références bibliographiques : 104 publications dont 20 en tant que premier auteur et 53 en tant qu'auteur à contribution égale. 21 publications de rang A selon le classement CORE (dont 12 workshops et 1 revue), 6 de rang B (dont 3 en workshop) et 42 de rang C (dont 20 en workshop). S'y ajoutent 51 communications orales sans publication des actes (voir ici pour les détails)

2026

Quantifying literary style: A corpus-based study Iglika Nikolova Stoupak and Gaël Lejeune and Eva Schaeffer-Lacroix, Journal Computational Linguistics in Bulgaria, , Bib - Pdf
Europarser : Un outil open-source pour collecter, structurer et exploiter de grands corpus de presse Marceau Hernandez and Gaël Lejeune and Félix Alié and Émile Rebours and Julien Bezançon, JADT 2026 - 18es Journées internationales d’Analyse statistique des Données Textuelles, p. to appear, Bib - Pdf
Discourse structure across technological maturity levels: A textometric approach mélusine Caillard and Gaël Lejeune, JADT 2026 - 18es Journées internationales d’Analyse statistique des Données Textuelles, p. to appear, Bib - Pdf
GDN-cc : Un jeu de données pour la clarification automatique de corpus de consultations citoyennes assistées par l’IA Pierre-Antoine Lequeu and Léo Labat and Laurène Cave and Gaël Lejeune and François Yvon and Benjamin Piwowarski, TALN 2026 (travaux déjà publiés), , Bib -
Epimethee – a workflow from ocr to spatial mapping Caroline Koudoro-Parfait and Marceau Hernandez and Gaël Lejeune and Yoann Dupont, TALN 2026 (travaux déjà publiés), , Bib -
How i met your snowclone: Unsupervised discovery of snowclone patterns in large datasets Julien Bezançon and Marceau Hernandez and Gaël Lejeune, TALN 2026 (travaux déjà publiés), , Bib -
The gdn-cc dataset: Automatic corpus clarification for ai-enhanced democratic citizen consultations Pierre-Antoine Lequeu and Léo Labat and Laurène Cave and Gaël Lejeune and François Yvon and Benjamin Piwowarski, ACL 2026 (core a\*), p. to appear, Bib - Pdf
Learning and Recognizing Latent Innovation Maturity Indicator Patterns in Texts Mélusine Caillard and Pierre-Emmanuel Fayemi and Gaël Lejeune and Aoussat Améziane, 28th - International Conference on Pattern Recognition (ICPR, CORE B), p. to appear, Bib - Pdf
A Vocabulary Analysis of News Articles in Relation to the Political Orientation of Their Source and their Thematic Laurène Cave and Gaël Lejeune, PoliticalNLP@LREC2026 (Core B), p. to appear, Bib - Pdf
Automatic generation of graded texts in old church slavonic Iglika Nikolova-Stoupak and Eva Schaeffer-Lacroix and Gaél Lejeune, Determit@LREC2026 (CORE B), p. to appear, Bib - Pdf
How I Met Your Snowclone: Unsupervised Discovery of Snowclone Patterns in Large Datasets Julien Bezançon and Marceau Hernandez and Gaël Lejeune, LREC 2026 (core b), p. to appear, Bib -

2025

Assessing the Impact of Image Resolution on OCR Transcription Accuracy Toufik Boubehziz and Caroline Koudoro-Parfait and Gaël Lejeune, 3rd International Workshop on Digital Language Archives, JCDL 2025 (CORE A\*), p. to appear, Bib - Pdf
For a fistful of puns: Evaluating a puns in multiword expressions identification algorithm without dedicated dataset Julien Bezançon and Gaël Lejeune, EMNLP 2025 (CORE A\*), p. 8350-8370, Bib - Pdf
Epiméthée : a workflow from OCR to spatial mapping Caroline Koudoro-Parfait and Marceau Hernandez and Gaël Lejeune and Yoann Dupont, 19th International Conference on Document Analysis and Recognition (ICDAR), p. 3-21, Bib - Pdf
Lost in Variation : An Unsupervised Methodology for Mining Lexico-syntactic Patterns in Middle Arabic Texts Julien Bezançon and Rimane Karam and Gaël Lejeune, Workshop on Arabic Corpus Linguistics (WACL), , Bib - Pdf
Does chatgpt adapt itself to the language used and the audience it implies? Iglika Nikolova Stoupak and Gaël Lejeune and Eva Schaeffer-Lacroix, Journal Computational Linguistics in Bulgaria, , Bib - Pdf
Forbidden FRUIT is the Sweetest: An Annotated Tweets Corpus for French Unfrozen Idioms Identification Julien Bezançon and Antoine Gautier and Félix Alié and Marceau Hernandez and Gaël Lejeune, XIXth Linguistic Annotation Workshop (LAW2015), workshop d’ACL 2025, Vienne, Autriche, p. 70-86, Bib - Pdf
Comment mesurer les biais politiques des grands modèles de langue multilingues? Paul Lerner and Laurène Cave and Hal Daumé and Léo Labat and Gaël Lejeune and Pierre-Antoine Lequeu and Benjamin Piwowarski and Nazanin Shafiabadi and François Yvon, Actes de coria-taln-rjcri-recital 2025. Actes de l’atelier ethic and alignment of (large) language models 2025 (ealm), p. 1-7, Bib - Pdf
Lost in variation : Extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe Rimane Karam and Julien Bezançon and Gaël Lejeune, Actes de coria-taln-rjcri-recital 2025. Actes des 32ème conférence sur le traitement automatique des langues naturelles (taln), volume 2 : Traductions d’articles publiés, p. 37-50, Bib - Pdf
Quelle solution pour améliorer les performances de la reconnaissance d’entités nommées sur des données bruitées, corriger l’entrée ou filtrer la sortie ? Ljudmila Petkovic and Caroline Koudoro-Parfait and Marie-Sophie Desmarest and Gaël Lejeune, Revue Corpus, Quelle solution pour améliorer les performances de la reconnaissance d’entités nommées sur des données bruitées, corriger l’entrée ou filtrer la sortie ?, p. en ligne, Bib - Pdf

2024

Contemporary llms and literary abridgement: An analytical inquiry Iglika Nikolova-Stoupak and Gaél Lejeune and Eva Schaeffer-Lacroix, Sixth International Conference on Computational Linguistics in Bulgaria, p. 39-57, Bib - Pdf
Extended context at the introduction of complex vocabulary in abridged literary texts Iglika Nikolova-Stoupak and Eva Schaeffer-Lacroix and Gaél Lejeune, Sixth International Conference on Computational Linguistics in Bulgaria, p. 166-177, Bib - Pdf
Text-based glossary generation by chatgpt for fl learners Iglika Nikolova-Stoupak and Gaél Lejeune and Eva Schaeffer-Lacroix, Innovation in Language Learning, , Bib - Pdf
Plongée dans le lexique du conspirationnisme dans la presse nationale française Clara Bordier and Matej Martinc and Marceau Hernandez and Senja Pollak and Gaël Lejeune, JADT 2024 - 17es Journées internationales d’Analyse statistique des Données Textuelles, p. to appear, Bib - Pdf
The evolution of bias in french news media: How does political orientation affect semantic change? Matej Martinc and Adélie Laruncet and Clara Bordier and Marceau Hernandez and Senja Pollak and Gaël Lejeune, JADT 2024 - 17es Journées internationales d’Analyse statistique des Données Textuelles, p. to appear, Bib - Pdf
A combined AraBERT and Voting Ensemble classifier model for Arabic sentiment analysis Dhaou Ghoul and Jérémy Patrix and Jérôme Verny and Gaël Lejeune, Natural Language Processing Journal, p. to-appear, Bib - Pdf
Trois méthodes sorbonne et SNCF pour la résolution de QCM (DEFT2024) Tom Rousseau and Marceau Hernandez and Iglika Stoupak and Angelo Mendoca-Manhoso and Andrea Blivet and Chang Liu and Toufik Boubehbiz and Corina Chuteaux and Gaël Guibon and Gaël Lejeune and Luce Lefeuvre, Actes du défi fouille de textes@TALN 2024, p. 47-57, Bib - Pdf
Discourse markers in abridged literary texts in french, spanish, and italian Iglika Nikolova-Stoupak and Eva Schaeffer-Lacroix and Gaél Lejeune, Discourse Markers in Romance Languages (DISROM 8), p. to appear, Bib - Pdf
Compilation of a synthetic Judeo-French corpus Iglika Nikolova-Stoupak and Gaél Lejeune and Eva Schaeffer-Lacroix, Proceedings of the 8th joint sighum workshop on computational linguistics for cultural heritage, social sciences, humanities and literature (latech-clfl 2024), p. 40-45, Bib - Pdf

2023

Analyzing the impact of tokenization on multilingual epidemic surveillance in low-resource languages Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Proceedings of icdar 2023, p. 17-32, Bib - Pdf
Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels Julien Bezançon and Gaël Lejeune, 18e Conférence en Recherche d’Information et Applications – 16e Rencontres Jeunes Chercheurs en RI – 30e Conférence sur le Traitement Automatique des Langues Naturelles – 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, p. 56-67, Bib - Pdf
SPQR@Deft2023: Résolution automatique de QCM médicaux à partir de corpus de domaine et de mesures de similarité Julien Bezançon and Toufik Boubehziz and Corina Chutaux and Oumaima Zine and Laurie Acensio and Caroline Koudoro-Parfait and Andrea Briglia and Gaël Lejeune, Actes du Défi Fouille de Textes@TALN2023, p. https://coria-taln-2023.sciencesconf.org/data/proceedings\_DEFT.pdf, Bib - Pdf
Mapping spatial named entities from noisy OCR output: Epimethee from OCR to map Caroline Koudoro-Parfait and Motasem Alrahabi and Yoann Dupont and Gaël Lejeune and Glenn Roe, Digital Humanities Conference (DH), p. 1-2, Bib - Pdf

2022

Actes de la journée d’étude sur la robustesse des systemes de TAL Caio Corro and Gaël Lejeune, Association Française pour le TAL (ATALA), , Bib - Pdf
Contextualizing emerging trends in financial news articles Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Financial nlp, workshop d’EMNLP 2022, p. 1-9, Bib - Pdf
Utilizing keywords evolution in context for emerging trend detection in scientific publications Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Proceedings of the symposium on information and communication technology, p. 247-253, Bib - Pdf
Adapting transformers for detecting emergency events on social media Emanuela Boros and Mickael Coustaty and Gaël Lejeune and Antoine Doucet, Proceedings of kdir 2022, p. 300-306, Bib - Pdf
Assessing the Impact of OCR Noise on Multilingual Event Detection over Digitised Documents Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Antoine Doucet, International Journal on Digital Libraries, p. 241-266, Bib - Pdf
Vers une collection numérique des libelles parus pendant la fronde, ou comment relier des mazarinades Karine Abiven and Alexandre Bartz and Gaël Lejeune and Jean-Baptiste Tanguy, Le Verger, , Bib - Pdf
Do we Name the Languages we Study? The \#BenderRule in LREC and ACL articles Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, LREC 2022 - International Conference on Language Resources and Evaluation (LREC), , Bib - Pdf
Stylo@DEFT2022 : Notation automatique de copies d’étudiant.e.s par combinaisons de méthodes de similarité Ibtihel Ben Ltaifa and Toufik Boubehziz and Andrea Briglia and Corina Chutaux and Yoann Dupont and Carlos-Emiliano González-Gallardo and Caroline Koudoro-Parfait and Gaël Lejeune, Actes de la 29e Conférence TALN. Atelier DÉfi Fouille de Textes (DEFT), p. 11-22, Bib - Pdf
Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique Caroline Koudoro-Parfait and Gaël Lejeune and Richy Buth, Actes de la 29e Conférence TALN, Atelier Humanités Numériques, p. 45-55, Bib - Pdf
Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Traitement Automatique des Langues Naturelles (TALN 2022), p. 345-354, Bib - Pdf
Langues par défaut? Analyse contrastive et diachronique des langues non citées dans les articles de TALN et ACL Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, RECITAL 2022 - Conférence sur le traitement automatique des langues naturelles (TALN), , Bib - Pdf
Les innovations lexicales dans le domaine des énergies renouvelables : exploitation du contraste de corpus comme moyen de repérage Manuela Yapomo and Gaël Lejeune, Neologica, p. 223-245, Bib - Pdf

2021

Spatial named entity recognition in literary texts: What is the influence of ocr noise? Caroline Koudoro-Parfait and Gaël Lejeune and Glenn Roe, Association for Computing Machinery, p. 13-21, Bib - Pdf
Multilingual epidemic event extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 23rd international conference on asia-pacific digital libraries ICADL 2021, online, p. 139-156, Bib - Pdf
Transformer-based Methods with \#Entities for Detecting Emergency Events on Social Media Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Mickael Coustaty and Antoine Doucet, Text REtrieval Conference (TREC), , Bib - Pdf
Multilingual epidemic event extraction : From simple classification methods to open information extraction (oie) and ontology Sahnoun Sihem and Lejeune Gaël, International conference on recent advances in natural language processing, 2021, online, p. 1227-1233, Bib - Pdf
Token-level multilingual epidemic dataset for event extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 25th international conference on theory and practice of digital libraries, TPDL 2021, p. 55-59, Bib - Pdf
Plans de Gestion de Données des projets membres du consortium CAHIER Laurene L’Hermite and Idmhand Fatiha and Stéphanie Dord-Crouslé and Karine Abiven and Gaël Lejeune and Alexandre Bartz and Emmanuelle Chapron and Michèle Brunet and Brigitte Gauvin and Thierry Buquet and Pierre-Yves Buard and Cécile Andisi-Brémont and Olivier Ritz and Paule Petitier and Christine Noille, CAHIER - Consortium CAHIER, p. 100 p., Bib - Pdf
Des données au corpus : l’exploitation numérique des mazarinades Karine Abiven and Gaël Lejeune, Idmhand, Fatiha, Marasescu-Galleron Ioana (dir.), Dix ans de corpus d’auteurs, p. 181-192, Bib - Pdf
Identification du Profil Clinique de Patients et Notation Automatique de Copies d’Étudiants Yoann Dupont and Carlos-Emiliano González-Gallardo and Gaël Lejeune and Alice Millour and Jean-Baptiste Tanguy, DEFT@TALN/recital 2021, p. 95-107, Bib - Pdf
Étude comparative de méthodes de classification multilingue appliquées à l’épidémiologie Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Actes de la conférence francophone en recherche d’Information et application (CORIA), , Bib - Pdf
L3iLBPAM at the FinSim-2 task: Learning Financial Semantic Similarities with Siamese Transformers Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet and Thierry Delahaut, WWW ’21: The Web Conference 2021, (Workshop de WWW 2021 ; CORE A*), Bib - Pdf
Sarcasm and Sentiment Detection in Arabic: investigating the interest of character-level features Dhaou Ghoul and Gaël Lejeune, Sixth Arabic Natural Language Processing Workshop (@EACL2021), p. 329-333 (Workshop de EACL 2021 ; CORE A), Bib - Pdf
Daniel at the FinSBD-2 task: Extracting list and sentence boundaries from PDF documents, a model-driven approach to PDF document analysis Emmanuel Giguet and Gaël Lejeune, Proceedings of the second workshop on financial technology and nlp, p. 67-74 (Workshop de IJCAI 2021 ; CORE A), Bib - Pdf

2020

Impact analysis of document digitization on event extraction Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet, 4th workshop on natural language for artificial intelligence (nl4ai), italian association for ai, p. 17-28 (Workshop de AI*AI; CORE B), Bib - Pdf
Multilingual epidemiological text classification: A comparative study Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Proceedings of the 28th international conference on computational linguistics, p. 6172-6183 (CORE A), Bib - Pdf
SinNer@Clef-Hipe2020 : Sinful adaptation of SotA models for Named Entity Recognition in French and German Pedro Javier Ortiz Suárez and Yoann Dupont and Gaël Lejeune and Tian Tian, CLEF 2020 Working Notes. Working Notes of CLEF 2020 - Conference and Labs of the Evaluation Forum, (3ème place du Défi), Bib - Pdf
A dataset for multi-lingual epidemiological event extraction Stephen Mutuvi and Antoine Doucet and Gaël Lejeune and Moses Odeo, Proceedings of the 12th language resources and evaluation conference, p. 4139-4144 (CORE C), Bib - Pdf
Out-of-the-box and into the ditch? Multilingual evaluation of generic text extraction tools Adrien Barbaresi and Gaël Lejeune, Proceedings of the 12th web as corpus workshop, p. 5-13 (Workshop de LREC; CORE C), Bib - Pdf
Dating Ancient texts: an Approach for Noisy French Documents Anaëlle Baledent and Nicolas Hiebel and Gaël Lejeune, Language technologies for historical and ancient languages (lt4hala) @lrec2020, (Workshop de LREC; CORE C), Bib - Pdf
Calcul de similarité entre phrases : quelles mesures et quels descripteurs ? Davide Buscaldi and Ghazi Felhi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune and Xudong Zhang, DEFT@JEP/taln/recital 2020, p. 14-25 (2ème place sur deux tâches du défi), Bib - Pdf
Bien choisir son outil d’extraction de contenu à partir du web Gaël Lejeune and Adrien Barbaresi, JEP/taln/recital 2020, p. 46-49 (CORE C), Bib - Pdf
Que recèlent les données textuelles issues du web ? Adrien Barbaresi and Gaël Lejeune, JEP/taln/recital 2020, p. 19-28 (Workshop de TALN; CORE C), Bib - Pdf
Daniel@FinTOC2 shared task: Title detection and structure extraction Emmanuel Giguet and Gaël Lejeune and Jean-Baptiste Tanguy, 1st joint workshop on financial narrative processing and multiling financial summarisation @coling2020, p. to appear (Workshop de COLING; CORE A), Bib - Pdf
Le défigement : Approche hybride linguistique et informatique Lichao Zhu and Gaël Lejeune, De la variation dans les langues: Universaux partagés et idiomaticité systématique, p. 325-336, Bib - Pdf
Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style Anaëlle Baledent and Gaël Lejeune, Phraséologie et stylistique de la langue littéraire / Phraseology and Stylistics of the Literary Language, p. 329-342, Bib - Pdf
Comparison between Voting Classifier and Deep Learning methods for Arabic Dialect Identification Dhaou Ghoul and Gaël Lejeune, Fifth Arabic Natural Language Processing Workshop (@COLING2020), p. 243-249 (Workshop de COLING; CORE A), Bib - Pdf

2019

Evaluating lightweight text classification and information extraction for arabic texts Dhaou Ghoul and Gaël Lejeune and Lichao Zhu, Research in Computing Science, p. 43-55 (CORE B), Bib - Pdf
Indexation et appariements de documents cliniques pour le Deft 2019 Davide Buscaldi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2019, p. 49-56 (Workshop de TALN; CORE C), Bib - Pdf
Daniel@FinTOC-2019 shared task : TOC extraction and title detection Emmanuel Giguet and Gaël Lejeune, Proceedings of the second financial narrative processing workshop (fnp 2019), p. 63-68 (1ère place sur la tâche d’extraction de Table des Matières), Bib - Pdf
Analyse automatique de documents anciens : Tirer parti d’un corpus incomplet, hétérogène et bruité Karine Abiven and Gaël Lejeune, Recherche d’information, document et web sémantique, , Bib - Pdf
MICHAEL: Mining Character-level Patterns for Arabic Dialect Identification (MADAR Challenge) Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fourth Arabic Natural Language Processing Workshop, p. 229-233 (Workshop de ACL; CORE A*), Bib - Pdf
Digital ou Numérique : un phénomène d’emprunt au cœur de la start-up nation ? Lichao Zhu and Gaël Lejeune, Journées de Linguistique de Corpus (JLC) 2019, , Bib - Pdf

2018

A new proposal for evaluating web page cleaning tools Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. 1249-1258 (CORE B), Bib - Pdf
Modèles en Caractères pour la Détection de Polarité dans les Tweets Davide Buscaldi and Joseph Le Roux and Gaël Lejeune, Défi Fouille de Textes (DEFT@TALN), (1ère place sur la tâche de classification binaire; Workshop de TALN; CORE C), Bib - Pdf
Analyse diachronique de corpus: Le cas du poker Gaël Lejeune and Lichao Zhu, Journées d’Analyse statistique des Données Textuelles (JADT), p. 444-451 (CORE C), Bib - Pdf

2017

Character based pattern mining for neology detection Lejeune Gaël and Cartier Emmanuel, Proceedings of Subword and Character Level Models in NLP (SCLeM), EMNLP 2017 Copenhagen, p. 25-30 (Workshop de EMNLP CORE A), Bib - Pdf
TWEETANEUSE : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017 Buscaldi Davide and Grezka Aude and Lejeune Gaël, Actes du 13e défi fouille de texte, p. 65-76 (Workshop de TALN; CORE C), Bib - Pdf

2016

Highlighting psychological features for predicting child interventions during story telling Gaël Lejeune and François Rioult and Bruno Crémilleux, INTERSPEECH 2016, (CORE A), Bib - Pdf
Ambiguity diagnosis for terms in digital humanities Béatrice Daille and Evelyne Jacquey and Gaël Lejeune and Luis Felipe Melo and Yannick Toussaint, Proceedings of the tenth international conference on language resources and evaluation (lrec 2016), (CORE C), Bib - Pdf

2015

Multilingual event extraction for epidemic detection Gaël Lejeune and Romain Brixtel and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine, (CORE A), Bib - Pdf
Une approche stylométrique pour la fouille d’opinion Gaël Lejeune and Frédéric Dumonceaux, Actes de la 11e défi fouille de texte, p. 12-15 (Workshop de TALN; CORE C), Bib - Pdf
Vers un diagnostic d’ambiguïté des termes candidats d’un texte Gaël Lejeune and Daille Béatrice, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 446-452 (CORE C), Bib - Pdf
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web Gaël Lejeune and Romain Brixtel and Charlotte Lecluze, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 411-417 (CORE C), Bib - Pdf
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel and Charlotte Lecluze and Gaël Lejeune, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 208-219 (CORE C), Bib - Pdf

2014

DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française Charlotte Lecluze and Gaël Lejeune, Actes de deft 2014 : 10ème défi fouille de textes, p. 11-19 (Workshop de TALN; CORE C), Bib - Pdf
Apports de l’analyse automatique multilingue pour la veille épidémiologique Gaël Lejeune and Charlotte Lecluze and Romain Brixtel and Antoine Doucet, Journées d’Analyse statistique des Données Textuelles (JADT), p. 297-308 (CORE C), Bib - Pdf

2013

Added-value of automatic multilingual text analysis for epidemic surveillance Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine (AIME), p. 284-294 (CORE A), Bib - Pdf
Veille épidémiologique multilingue : Une approche parcimonieuse au grain caractère fondée sur le genre textuel Gaël Lejeune, Université de Caen, , Bib - Pdf
DEFT2013, une cuisine de caractères Gaël Lejeune and Charlotte Lecluze and Romain Brixtel, Actes de deft 2013 : 9e défi fouille de textes, p. 29-36 (Workshop de TALN; CORE C), Bib - Pdf
Any Language Early Detection of Epidemic Diseases from Web News Streams Romain Brixtel and Gaël Lejeune and Antoine Doucet and Nadine Lucas, International Conference on Healthcare Informatics (ICHI), p. 159-168 (Taux d’acceptation 22 %), Bib - Pdf
Vers une approche rhétorique en tal : Application à la veille épidémiologique multilingue Christine Durieux and Romain Brixtel and Gaël Lejeune, Des mots aux actes, p. 151-167, Bib - Pdf
Détection de zones parallèles à l’intérieur de bi-documents pour l’alignement multilingue Charlotte Lecluze and Romain Brixtel and Loïs Rigouste and Emmanuel Giguet and Régis Clouard and Gaël Lejeune and Patrick Constant, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2013), p. 381-394 (CORE C), Bib - Pdf
DAnIEL : Veille épidémiologique multilingue parcimonieuse (démonstration) Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, TALN 2013, p. 787-788 (CORE C), Bib - Pdf

2012

Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan and Mathieu Boucher and Romain Brixtel and Gaël Lejeune and Gaël Dias, JEP-taln-recital 2012, atelier deft 2012: DÉfi fouille de textes, p. 41-48 (Workshop de TALN; CORE C), Bib - Pdf
DAnIEL : Language independent character-based news surveillance Gaël Lejeune and Brixtel Romain and Doucet Antoine and Lucas Nadine, NLP international conferene, japtal 2012, p. 343-348, Bib - Pdf

2011

Appariements de résumés et d’articles scientfiques fondés sur des distributions de chaînes de caractères Gaël Lejeune and Romain Brixtel and Emmanuel Giguet and Nadine Lucas, Proceedings of defi fouille de texte (deft’11), p. 53-64 (Workshop de TALN; CORE C), Bib - Pdf

2010

Filtering news for epidemic surveillance: Towards processing more languages with fewer resources Gaël Lejeune and Antoine Doucet and Roman Yangarber and Nadine Lucas, CLIA/coling, p. 3-10 (Workshop de COLING; CORE A), Bib - Pdf
Tentative d’Approche multilingue en extraction d’Information Gaël Lejeune and Antoine Doucet and Nadine Lucas, Journées d’Analyse statistique des Données Textuelles (JADT), p. 1259-1268 (CORE C), Bib - Pdf
A proposal for a multilingual epidemic surveillance system Gaël Lejeune and Mohamed Hatmi and Antoine Doucet and Silja Huttunen and Nadine Lucas, User centric media, p. 343-348, Bib - Pdf

2009

Structure patterns in information extraction:A multilingual solution? Gaël Lejeune, Advances in methods of information and communication technology, amict09, p. 105-111, Bib - Pdf

Communications sans publication des actes

2023-2026

Usage de l'IA en traduction journalistique : enjeux éthiques, juridiques, sociaux et environnementaux, Table Ronde avec Gaële Gagné (SFT), Sophie Huët (AFP) et Cyrle Laumonier (ISIT)
Des IA pour les Humanités : opportunité(s) ou opportunisme, Séminaire Numérique pour l’Éducation, Poitiers; Lien
La variation linguistique en traitement automatique des Langues : obstacle technique ou opportunité méthodologique ?, Séminaire DILTEC (Sorbonne Nouvelle), Lien
Genres textuels et caractéristiques stylistiques pour la classification, Séminaire de linguistique computationnelle STIH/Sorbonne Université:
Créativité Textuelle Computationnelle : nouveautés et redites, plagiats et réminiscences, Colloque Générativité & Créativité (F. Neveu et M. Fasciolo)
Intelligence Artificielle pour les SHS, Winter School de SCAI (Slides ici)
La liberté d’expression des sportifs au prisme de l’analyse statistique des données textuelles, Communication au colloque Liberté d'Expression et Sport de la chaire COLIBEX
Le numérique au service des Humanités ... et vice-versa, Conférence Humanités Numériques de l'UFR LLSHS, Caen
Centre d’Expérimentation en Méthodes Numériques pour les SHS, Deuxième journée Humanités Numériques de SU (avec Virginie Julliard)
Rapprocher des éléments textuels similaires : gestion des sauts qualitatifs en général et de la variation morphologique en particulier, Séminaire variation linguistique et Linguistique Computationnelle
Approches tout-terrain ou ad hoc : comment concevoir des applications de TAL robustes à la variation dans les données?, Séminaire de Recherche du M2 TAL, Nanterre
Structure de Documents et Covariation des Pratiques de Lecture entre le XIIIe et le XVIIIe siècle, Séminaire RITUEL (CERES-ALLIANCE)
Subwords Seriously ? Que dit Kenneth Church dans cet article ?, Groupe de Lecture ML4DH
Un enseignant-chercheur c’est quoi ?, Présentation à La Manu (Le Havre)
Quel impact des IA génératives sur les métiers du droit?, Table Ronde de l'association des jeunes avocats du barreau de Paris
Projet Antonomaz (site et exploitation numérique de « mazarinades », 17e siècle, Journée Humanités Numériques SU (avec Karine Abiven)
2018-2022
Le rapport signal/bruit dans les corpus tirés du web, Journée d'études Robustesse des systèmes de TAL (Robustal), avec Adrien Barbaresi
Approches de TAL pour les Humanités Numériques : la problématique de la variation, Conférence invitée à l'atelier " Données et discours géographiques en France au 18e siècle", Université de Chicago à Paris et projet GEODE)
"One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel", Conférence invitée à la journée de l'axe Documents Apprentissage Connaissance de la fédération Normastic
Reconnaissance des Entités Nommées spatiales dans un corpus littéraire bruité : des entités à la carte, Journée des sources aux Systèmes d'Information Géographique (SIG)
Faire face à la variation en TAL : pistes épistémologiques et pratiques, Journée CERES-ALLIANCE, La Rochelle
Des données au corpus : l'exploitation numérique des mazarinades, 10 ans du consortium CAHIER (lien), avec Karine Abiven
Reconnaissance d’entités nommées spatiales dans des transcriptions OCR bruitées de textes littéraires, atelier SAGEO Humanités Numériques Spatialisées, avec Caroline Parfait, Motasem Alrahabi et Glenn Roe
Discovering Spatial Relations in Literature: what is the influence of OCR noise?, conférence internationale News Eye avec C.Parfait, M.Alrahabi et G. Roe
Quels observables linguistiques pour une observation outillée ? Expérimentations et réflexions sur le travail statistique sur corpus, atelier Recherches Linguistiques sur Corpus (axe transversal de l'équipe STIH)
There ain't such thing as clean data, réflexions sur les données et les traces, Séminaire doctoral Question de méthodes et numérique pour les thèses en SHS, organisé par Virginie Julliard et Thomas Bottini, Sorbonne Université
Quelles recherches lexicales sur des données océrisées non post-traitées ? Vers une stylométrie de l’écriture burlesque dans les “mazarinades” (1648-1653), séminaire "Les humanités numériques littéraires" de l'OBVIL, Karine Abiven, Gaël Lejeune, Jean-Baptiste Tanguy
Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
Comparaisons et combinaisons d'extracteurs d'entités spatiales sur un corpus multilingue, présentation à l'atelier Humanités Numériques Spatialisées Zijian Wang, Gaël Lejeune, Yoann Dupont et Tian Tian
Traiter automatiquement les données textuelles dans le contexte des Humanités, séminaire de la licence Humanités Numériques (UFR HSS), Université de Caen
Sociologie de l'Informatique, Informatique de la Sociologie : Analyse des titres de thèse de Sociologie, avec Hugo Jeaningros (Sorbonne Université), JE SIBON, Paris 2020
Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach, Methoden zur Zusammenstellung und Erschließung von Korpusdaten, Académie des Sciences (BBAW), Berlin
Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
Illusions Artificielles et Réelles Impostures, conférence invitée Les Discours de l'Imposture 19/06/2019 (TTN, Université Paris XIII)
Traiter par le TAL un ensemble de textes redondant, hétérogène et bruité : autour du projet AnTOnoMAZ , Circulation des écrits littéraires de la première modernité & humanités numériques 05/06/2019 (ENS ULM), avec Karine Abiven
Analyse stylistique de textes littéraires, Séminaire du Labex OBVIL, Paris, 5 avril 2019
Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas, Phraseorom, avec Anaëlle Baledent, Phraseorom 2019, Erlangen, Allemagne
Caractérisation de marqueurs de relations par classification non supervisée, Lexique Terminologie Traduction (LTT), avec Luce Lefeuvre, Grenoble, 27 septembre 2018
Analyse Automatique des Mazarinades : tirer profit d'un corpus bruité, Atelier ADOC, 28 mai 2018 (avec Karine Abiven)
Veille épidémiologique, réagir à temps grâce à la couverture multilingue, Jeudis de Santé Publique France, 24 mai 2018
2013-2017
Découverte automatique multilingue de néologismes dans la presse en ligne, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
Figement et Créativité Computationnelle, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
Intrinsic and Extrinsic Evalution of Web Page Cleaning, Présentation à ISWAG (International Symposium on Web Algorithms), Deauville, 9 juin 2016
La linguistique pour le TAL : au service de la simplexité ?, Présentation invitée à la journée d'études "Linguistique et Complexité", Lilpa -- Université de Strasbourg, 13 novembre 2015
Méthodes robustes et parcimonieuses pour l’analyse des données textuelles, séminaire L3I, La Rochelle, 26 mars 2015
Approche du TAL fondée sur le genre textuel, séminaire ATAL, Nantes, 21 octobre 2014
Multilingual Epidemic Surveillance: a parsimonious character-based approach, séminaire de la société My Script, Nantes, 28 août 2014
Multilingual Epidemic News Surveillance: covering the earth for timely alerts, Avec Antoine Doucet, conférence invitée au Festival International de la Science (Vetenskapsfestivalen) 2014 "Act, React, Interact", Göteborg, 9 mai 2014 Flyer
2009-2012
Propositions pour une fouille de texte collaborative spécialisée dans le domaine des arts, avec Emmanuel Zwenger, Communication aux journées d'études du Bulletin Signalétique des Arts Plastiques (BSAP), Ecole Nationale Supérieure des Beaux Arts de Lyon, février 2012
Pour une approche cibliste en TAL: le cas de l'analyse automatique de la presse, avec Christine Durieux, communication au Colloque International Rhétorique et Traduction, Orléans janvier 2012
Ce que le texte peut dire au TAL, Communication aux journées scientifiques du CRISCO Ce que le texte fait à la phrase, Caen, décembre 2009 bibtex Pdf

HDR : De la variation linguistique et de son influence sur l’application de méthodes de Traitement Automatique des Langues

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Habilitation à Diriger les Recherches soutenue le 18 décembre 2023 devant un jury composé de :

Cécile Fabre, Professeure des Universités, CLLE, Université de Toulouse (Rapportrice)
Éric Gaussier, Professeur des Universités, LIG, Université Grenoble Alpes (Rapporteur)
Laurent Romary, Directeur de Recherches INRIA, Almanach, INRIA Paris (Rapporteur)
Franck Neveu, Professeur des Universités, STIH, Sorbonne Université (Président)
François Rioult Maître de Conférences HDR, GREYC, Université de Caen (Examinateur)
Virginie Julliard, Professeure des Universités, GRIPIC, Sorbonne Université (Garante)

Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel. Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes. D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où les documents sont simplement des séquences de mots et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent être exploités pour concevoir des modèles de TAL.

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Téléchargez ici le manuscrit ou le fichier bibtex

Thèse soutenue le 16 octobre 2013 devant un jury composé de :

M. Luigi Lancieri, Professeur Université Lille I (rapporteur)
M. Jose Gabriel Pereira Lopes, Professeur, Université Nouvelle de Lisbonne (rapporteur)
Mme Florence Sèdes, Professeure, Université Toulouse III (rapporteur)
M. Gaël Dias, Professeur, Université de Caen (examinateur)
Mme Natalia Grabar, Chargée de Recherche, STL-CNRS (examinateur)
M. Ludovic Tanguy, Maître de Conférences HDR, Université Toulouse II (examinateur)
M. Antoine Doucet, Maître de Conférences HDR, Université de Caen (co-encadrant)
Mme Nadine Lucas, Chargée de Recherche HDR, GREYC-CNRS (directeur)

... non crédités au générique mais décisifs tout au long de cette thèse, mes associés Romain Brixtel et Charlotte Lecluze. Big Up dudes

Cette thèse propose une méthodologie pour traiter le problème du multilinguisme dans le cadre de tâches de classification et de recherche d'information. L'idée de base de notre travail est de définir une approche aussi peu dépendante des langues que possible de manière à faciliter la factorisation et ainsi l'extension du système à de nouvelles langues. En effet, les systèmes combinant Recherche d'Information et Extraction d'Information (EI) ont cruellement besoin de filtrer de grandes quantités de données dans un grand nombre de langues (voir par exemple Medisys).

Les systèmes classiques d'EI ne permettent pas à l'heure actuelle de faire face à ces enjeux du fait de leur dépendance à des outils (lemmatiseurs, analyseurs syntaxiques...) et autres ressources lexicales complexes (dictionnaires, ontologies...). Certaines langues peu dotées en ressources sont par la force des choses laissées de côté. Notre approche vise à combler ces manques. Elle a abouti à la conception de Daniel, notre système de veille épidémiologique multilingue . À ce jour, Daniel (Data Analysis for Information Extraction in any Language) a été testé, avec succès, sur 17 langues dont le chinois, le finnois et l'arabe.

Le développement de Daniel, système d'Extraction d'Information Multilingue, vise à combler ces manques. Il utilise les propriétés du genre journalistique et se base sur une analyse au grain caractère. De cette façon l'extension de Daniel vers de nouvelles langues se fait à coût marginal minimal.

Nous avons expérimenté cette approche sur d'autres tâches dans le cadre des Défis Fouille de Texte (DEFT) 2011 et 2012. En 2011 dans la tâche d'appariement de résumés et d'articles scientifiques nous avons atteint la première place ex-aequo. En 2012 dans la tâche d'extraction de mots-clés nous avons atteint la troisième place.

Enfin, en utilisant Daniel nous avons pu évaluer par la tâche des outils de nettoyage de page web. L'idée de ces expériences est de voir comment la qualité de ce nettoyage, que nous nommons "détourage", influence les résultats du système placé en aval.

Parcours professionnel

2017-... : Maître de Conférences en Informatique (Sorbonne Université) au sein du laboratoire STIH
2016-2017 : post-doctorant au LIPN (Paris XIII), "Détection Automatique de Néologismes"
2015-2016 : post-doctorant au GREYC (Caen), "Event prediction for dialogue modelling"
2014-2015 : ATER à l'Université de Nantes (Faculté des Sciences)
2013-2014 : ATER à l'IUT de Cherbourg (Antenne de Saint-Lô, département MMI)
2010-2013 : Doctorant au GREYC (Caen, Bourse ministérielle)
2009-2010 : Ingénieur de recherche GREYC (Caen), "Veille Multilingue"
2009 : Ingénieur de recherche Computer Science Dpt. (Helsinki), "PULS Project"
En dehors de la recherche en informatique:

2005 à 2010, Prof particulier en Lettres, Mathématiques et méthodologie (collège, lycée)
2002 à 2009, Surveillant d'Externat, Académie de Caen
2006 et 2007, Directeur adjoint logistique en CLSH, Ligue de l'enseignement
2000 à 2007, Initiateur et entraineur du jeu d'échecs, Club d'échecs Caen Alekhine
1997 à 2008, Expertises sur lignes téléphoniques, CBS puis Rea-Immo

En savoir plus : mon CV

Perso

Programmation

Je suis un Pythoniste assidu même s'il peut m'arriver de concevoir des projets en PHP ou Javascript.

Bouquins

Un peu de tout, de l'utilitaire (sciences, chroniques historiques, essais,...) au superfétatoire (Anticipation, Héroïc Fantasy...)

Les échecs

Mon principal fait d'armes est d'avoir empoché avec mon collègue Dr. Romain Brixtel et deux acolytes nord-cotentinois le tournoi national des Universités et grandes écoles 2006 au nez et à la barbe d'HEC, Polytechnique, Centrale, Dauphine, Sciences Po...

Small world

Carlsen Number	5
Morphy number	5
Kasparov number	4
Erdös number	5
Bacon Number	3
Pelé Number (invention?)	4

Gaël Lejeune, Maître de Conférences HDR en Informatique

UFR de Sociologie et d'Informatique, laboratoire STIH, Sorbonne Université

Actualités

Enseignements

Mes supports 2024-2025 sont en ligne sur le moodle Sorbonne Université. Je suis responsable des cours suivants :

- Mes expériences antérieures d'enseignement

Encadrement Doctoral

Responsabilités

Comités de Programme

Situation

Intérêts scientifiques

Publications

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

Communications sans publication des actes

2023-2026

2018-2022

2013-2017

2009-2012

HDR : De la variation linguistique et de son influence sur l’application de méthodes de Traitement Automatique des Langues

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Téléchargez ici le manuscrit ou le fichier bibtex

Parcours professionnel

Perso

Programmation

Bouquins

Les échecs

Small world