Exposé de Philippe Gambette (Université Paris-Est Marne-la-Vallée) dans le cadre du Séminaire Digital Humanities / Artificial Intelligence (DHAI).
Cet exposé proposera plusieurs approches algorithmiques basées sur des algorithmes d'alignement ou de comparaison de texte, à différentes échelles, avec des applications en sciences humaines numériques. Nous présenterons une approche basée sur l'alignement pour la modernisation du texte français des XVIe et XVIIe siècles et montrerons l'impact de ce processus de normalisation sur la reconnaissance automatique des entités géographiques nommées.
Nous montrerons également plusieurs techniques de visualisation utiles pour explorer les corpus de textes en mettant en évidence les similitudes et les différences entre ces textes à différents niveaux. En particulier, nous illustrerons l'utilisation des diagrammes de Sankey à différents niveaux pour aligner différentes éditions d'un même texte, comme les livres de poésie de Marceline Desbordes-Valmore publiés de 1819 à 1830 ou Heptameron de Marguerite de Navarre. Cet outil de visualisation peut également être utilisé pour comparer les mots les plus fréquents de deux corpus comparables afin de mettre en évidence leurs différences. Nous illustrerons également comment l'utilisation d'arbres de mots, construits avec le logiciel TreeCloud, permet d'identifier les tendances dans un corpus, en comparant les arbres construits pour des sous-ensembles du corpus.
Nous nous concentrerons enfin sur la stemmatologie, où les textes analysés sont supposés être issus d'un manuscrit initial unique. Nous décrirons un algorithme de reconstruction d'arbre conçu pour prendre en compte les apports linguistiques lors de la construction d'un arbre décrivant l'histoire des manuscrits, ainsi qu'une liste de variantes observées soutenant ses arêtes.
Les contributeurs de ces travaux incluent Delphine Amstutz, Jean-Charles Bontemps, Aleksandra Chaschina, Hilde Eggermont, Raphaël Gaudy, Eleni Kogkitsidou, Gregory Kucherov, Tita Kyriacopoulou, Nadège Lechevrel, Xavier Le Roux, Claude Martineau, William Martinez, Anna-Livia Morand, Jonathan Poinhos, Caroline Trotot et Jean Véronis
Voir aussi
|
Cursus :
Philippe Gambette est maître de conférences en informatique à l’Université Paris-Est-Marne-la-Vallée depuis 2011.
Après son doctorat en bioinformatique obtenu en 2010 à l’Université Montpellier 2, et un CDD de recherche à Marseille, il poursuit des travaux de recherche en algorithmique des graphes et en bioinformatique, à propos notamment des réseaux phylogénétiques qui représentent l’évolution des espèces.
Il travaille aussi, en collaboration avec des chercheurs en sciences humaines et sociales, sur des problématiques d’analyse de textes assistée par ordinateur, en proposant des outils de visualisation de textes (notamment en arbres de mots) et de nouvelles méthodologies d’analyse textométrique (notamment dans le cadre des projets ANR Biolographes et APPEL).
Cliquer ICI pour fermerDernière mise à jour : 16/12/2020