Définir précisément les concepts d’un ouvrage en grec ancien, et pas n’importe lequel : La Politique d’Aristote. Voilà le défi que s’est fixé l’action exploratoire Apollon. Elle mise pour cela sur l’alliance de la modélisation, de la statistique, du machine learning… et des experts de l’histoire et de la linguistique.
Quand l’Histoire rencontre la statistique…
Créer un index des concepts exposés par Aristote dans son ouvrage La Politique, l’un des plus importants en matière de philosophie politique, voilà qui permettrait par exemple de resituer les notions de démocratie et de dictature dans leur contexte originel. Le hic ? En prenant en compte le faible nombre de chercheurs capables de se pencher sur un tel sujet pour éplucher le texte en grec ancien et établir cette classification, il faudrait environ une centaine d’années pour venir à bout de la tâche ! Un véritable défi, qu’Antoine Lejay, de l’équipe-projet Pasta (commune entre Inria Nancy – Grand Est, le CNRS et l’Institut Élie Cartan de Lorraine), et ses collègues se sont proposé de relever… en compensant le manque de bras par l’intelligence artificielle.
Tout commence début 2022 : Lionel Lenotre, ancien doctorant d’Antoine Lejay et désormais maître de conférences en probabilités et statistiques à l’Université de Haute-Alsace (UHA), travaille aux côtés de l’historienne Maria Teresa Schettino. Et recontacte son ancien directeur de thèse avec une question : le savoir-faire de Pasta en modélisation et études statistiques pourrait-il permettre de repérer les structures logiques sous-jacentes dans le livre d’Aristote ?
Un projet interdisciplinaire taillé pour l’action exploratoire
« Un vrai challenge tant sur les plans intellectuel que technique ! résume Antoine Lejay. Cela impliquait d’utiliser des outils de traitement automatique des langues (TAL), mais en les réinventant pour permettre la recherche de structures logiques à travers l’ensemble du texte. » Maria Teresa Schettino ajoute : « Au cours de ce projet, résolument interdisciplinaire, l’échange constant entre les chercheurs d’IA et ceux des sciences humaines et sociales constituera un autre défi à relever. Il s’agit de deux langages différents, qui doivent apprendre à se connaître et à interagir. Les nouveautés en termes de méthodologie scientifique que cet échange pourra produire sont innombrables et imprédictibles ! »
Un projet hors des sentiers battus, sans garantie de résultat et risqué sur les plans humain et technique… pas vraiment les conditions idéales pour obtenir des financements. Sauf chez Inria. Via son Contrat d’objectifs et de performance, l’institut s’est en effet engagé à favoriser la prise de risque scientifique et l’interdisciplinarité. Parmi les outils mobilisés : les actions exploratoires, destinées justement à soutenir les projets novateurs et en rupture portés par les chercheurs. « Nous avons monté notre dossier en mars 2022… et dès juin nous avons obtenu un financement pour engager un postdoctorant pendant deux ans. La démarche a été simple et efficace. Et surtout, ce premier soutien a permis de démarrer nos recherches, ce qui facilitera les demandes de financements via d’autres canaux : nous aurons des premiers résultats à montrer et un positionnement plus facile à établir », souligne Antoine Lejay.
Première étape : quelles relations entre les mots et les concepts ?
L’action exploratoire, baptisée Apollon, est lancée. Elle rassemble une dizaine de membres venus de l’équipe-projet Pasta, du CNRS, du laboratoire Archimède de l’université de Haute-Alsace… et devrait prochainement s’agrandir avec l’arrivée de spécialistes d’Aristote de l’université italienne de Pavie, ou encore de Catherine Roth, maître de conférences en sciences de l’information et de la communication à l’UHA, qui s’intéresse notamment à la détection de l’implicite dans le langage.
Les études préliminaires, débutées en janvier dernier, se sont penchées sur la recherche de relations sémantiques entre certains mots et concepts. Par exemple, le mot « banquet » est-il relié au concept de « royauté » ? Une deuxième tâche, plus difficile, vise à définir les idées liées directement par des verbes comme « être » ou « sembler ». « Le verbe « être » présente plusieurs obstacles : il peut indiquer une équivalence, mais également une inclusion et dans ce cas, le traitement à apporter à l’information est différent, explique Antoine Lejay. En outre, les outils de TAL en grec ancien ne sont pas assez fiables, nous avons parfois du mal à identifier le sujet ou le complément et, difficulté supplémentaire, le grec ancien se passe parfois du verbe dans une phrase ! D’où l’importance de l’interdisciplinarité, qui nous permet de demander à des linguistes et des philologues de nous aider à examiner les résultats engendrés par notre algorithme de reconnaissance de relations. »
Deuxième étape : entraîner un algorithme
C’est d’ailleurs en combinant intelligences artificielle et humaine que l’action exploratoire Apollon compte aboutir : une fois ce premier travail sur les relations réalisé, d’ici un an environ, l’objectif est de faire analyser le texte complet par l’algorithme et de faire réviser ses premiers résultats par des spécialistes. Ils les annoteront et les retourneront à l’algorithme afin que celui-ci s’améliore. Jusqu’à être capable, dans quatre ou cinq ans, de générer seul le lexique des concepts de La Politique. « S’il y a une phrase qui parle de LA démocratie et une qui mentionne LES démocraties, le sens derrière n’est pas le même, pointe Antoine Lejay. Or si nous voulons une analyse fine et experte, il faut prendre toutes ces nuances en compte. C’est ce qui est difficile, stimulant et qui constitue l’un des risques du projet ! »
L’équipe doit également faire face à un autre frein : l’inadéquation des outils informatiques existants avec ses besoins. Il n’existe pour le moment pas d’interface permettant justement à un historien ou à un linguiste d’avoir accès de façon claire aux résultats de l’algorithme, avec une présentation directe des relations établies dans le texte. Or un tel dispositif est indispensable pour l’entraînement de l’algorithme par les experts… et Apollon devra donc le créer.
Des retombées en sciences humaines et numériques
« De l’identification de toutes ces étapes, de tous ces besoins et enjeux naissent des discussions interdisciplinaires entre les membres de l’action exploratoire », note Antoine Lejay. Et les retombées seront, elles aussi, forcément interdisciplinaires. D’un côté, les historiens disposeront enfin d’une lecture de La Politique contenant le moins de biais possible. « Il ne s’agira plus de penser ce qu’Aristote a voulu écrire, donc de commenter son œuvre, mais bien de savoir ce qu’il a écrit. Les historiens pourront donc valider les hypothèses qu’ils émettent sur son discours, disposer de frontières claires entre les concepts de monarchie, démocratie, tyrannie, etc., tels que les a définis le philosophe », illustre le chercheur.
© Source : gallica.bnf.fr / Bibliothèque nationale et universitaire de Strasbourg