Donner un nouveau sens aux documents historiques
Publié par Journal en direct, le 27 juin 2024 190
Depuis des années, les bibliothèques et services d’archives recourent à la numérisation pour assurer la sauvegarde des milliers de documents qu'ils possèdent, et pour mettre ce patrimoine à la disposition de la recherche et du grand public. L’envers de la médaille de cette démarche doublement vertueuse est qu’il peut être facile de se perdre dans ce qui s’apparente aujourd’hui à un véritable big data sur le net.
C’est pour aider à la consultation et à l’exploitation de ces quantités d’informations qu’est né le projet EMONTAL1 à l’université de Franche-Comté / CRIT.
Son objectif est la création d’outils fondés sur des méthodes d’analyse du discours et de traitement automatique des langues pour structurer les données et les mettre en lien. Il n’est ici bien sûr pas question de s’attaquer à l’ensemble de la masse archivistique disponible, mais d’expérimenter de tels outils sur un corpus particulier : celui de documents imprimés datant des XIXe et XXe siècles et concernant la région Bourgogne - Franche-Comté.
Le traitement linguistique de ces écrits amène à la réalisation d’interfaces logicielles permettant d’établir des relations entre des personnes ou des lieux, pour retracer un parcours individuel, l’histoire d’une famille ou celle d’une activité commerciale. « Il faut imaginer une sorte de grand réseau social dans lequel une information est reliée à une autre : un nom amène à un lieu de naissance, à une date de mariage, à un métier, à l’exercice d’une fonction, à l’héritage d’une maison… », explique Nicolas Gutehrlé, qui réalise sa thèse sur ce projet au CRIT, sous la direction de Iana Atanassova.
« Des points communs géographiques, par exemple des villages dans lesquels on trouve un patronyme particulier, pourront faire l’objet de projections sur une carte. »
En définitive, c’est la synthèse d’un sujet alimentée par différentes sources que permettent d’élaborer les outils, une synthèse qui est également une porte d’entrée vers les archives elles-mêmes : il est possible de les consulter pour vérifier des données ou pour approfondir la recherche documentaire.
Le corpus est composé de textes issus de registres paroissiaux, de journaux d’information de diverses sensibilités politiques, de revues à visée scientifique, passant d’une présentation sous forme de pages entières à une disposition en colonnes, d’un niveau de langage soutenu à un style familier, voire télégraphique.
Un vrai problème, même pour les logiciels d’analyse textuelle : les documents nécessitent un prétraitement pour pouvoir être décortiqués par eux, un travail qui a demandé près d’un an de sa thèse au jeune chercheur.
« L’approche linguistique développée au CRIT repose sur l’étude du lexique et de la syntaxe, sur la détection de motifs représentés par des mots ou groupes de mots d’intérêt, qui peuvent ensuite être collectés de manière automatique. L’intérêt de ce procédé est que tout ce qui en découle a du sens, tout est interprétable. »
À la veille de la soutenance de thèse de Nicolas Gutehrlé, les méthodes sont prêtes et à la disposition de la communauté scientifique ; si quelques prototypes de logiciels ont vu le jour, les interfaces donnant la pleine mesure des possibilités offertes pour la mise en valeur du patrimoine régional nécessiteront, quant à elles, de nouveaux développements.
1 Extraction et modélisation ontologique des acteurs et lieux pour la valorisation du patrimoine de Bourgogne - Franche-Comté. Le contrat doctoral lié à ce projet a été financé par la Région Bourgogne - Franche-Comté.