Projets de recherche

Projets européens

DARIAH

Digital Research Infrastructure for the Arts and Humanities.

ATRIUM

ATRIUM vise à permettre aux chercheurs en arts et sciences humaines d'utiliser des méthodes numériques en facilitant l'accès à un large éventail de flux de travail réutilisables et de services interopérables et composables offerts par les principales infrastructures de recherche dans le domaine des arts et des sciences humaines.

Projets ANR

MaTOS

Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites.

SINNet

Réseaux de neurones socio-inspirés.

TraLaLaM

Traduire avec de grands modèles de langue.

Autres projets nationaux

Cap'FALC

Développement d'un algorithme de simplification de textes et d'un outil accessible facilitant la production de textes en FALC (« Facile à Lire et à Comprendre »).

LiLT

Problématiques linguistiques dans les technologies du langage.

Huma-Num

Très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales.

Patrimoines matériels – innovation, expérimentation et résilience

COLaF

Ressources et outils pour les langues de France.

TIERED

Transformer l'enseignement et la recherche interdisciplinaires au service de nos démocraties en pleine évolution.

SaLM

Le projet SaLM est un effort collaboratif entre Inria Paris et Sciences Po qui vise à améliorer les algorithmes de PNL et de LLM en intégrant les contextes sociaux dans leur développement et leur évaluation.

BackInTime

L'automisation des déchiffrements de l'histoire antique, médiévale et moderne.

AI4IDF

AI4IDF est un projet de recherche structurant et fédérateur, consacré à l'intelligence artificielle, domaine scientifique et technologique devenu incontournable.

Code Commons

CodeCommons est un projet visant à renforcer et étendre l’archive Software Heritage. Son objectif est de permettre aux utilisateurs de développer des applications robustes, comme des outils de génération de code basés sur des grands modèles de langues, tout en garantissant le respect du droit d’auteur.

Corpus Liberatum Linguae Graecae

Le CLLG est un projet visant à créer un corpus FAIR de textes en grec ancien et d'améliorer la production de documents structurés à partir de livres numérisés.

FG4H

FG4H est un projet visant à entrainer un grand modèle de langue (LLM) à partir des données médicales françaises fournies par un large consortium d'établissements de santé.

SCRIBE

Scribe est un projet visant à produire des larges modèles de langue sectoriels (finance, juridique,..) avec une emphase sur le contexte socio-économique français.

PRAIRIE-PSAI

PR[AI]RIE-PSAI (Paris School of AI) est le plus important des Cluster IA déployés dans le cadre de la stratégie nationale France 2030.

Justine Cassell's Choose France Chair

PEPR eNSEMBLE

Le programme de recherche collaboration numérique (aussi appelé PEPR eNSEMBLE) est un programme national de recherche, financé par France 2030, qui rassemble des scientifiques de toutes disciplines afin de répondre aux problématiques actuelles de la collaboration numérique. Son but est de proposer des modèles sociotechniques de collaboration à long terme et des plateformes de collaborations multi organisationnelles, souveraines, sécurisées et interopérables qui favorisent la confiance et le bien être numérique.

BASHtr

L’objectif principal du projet est la production de normes de transcription à usage général, de données d’entraînement et de modèles d'apprentissage automatique destinés à la reconnaissance automatique de textes (ATR) de manuscrits historiques en écriture arabe.

Projets internationaux

Universal Dependencies Project

Le projet Universal Dependencies est un effort communautaire ouvert avec plus de 300 contributeurs produisant près de 200 jeux de données annotés en syntaxe dans plus de 100 langues.

Interpersonality

Generation et reconnaissance de personalité pour agents conversationnels.

SPHERE

Physiologie sociale et ingénierie des réponses incarnées de type humain.

Anciens Projets

Projets européens

CounteR (H2020, 2021-2024): Afin de soutenir la lutte contre la radicalisation et ainsi prévenir de futures attaques terroristes, le projet CounteR consolide des données provenant de sources diverses dans une plate-forme d'analyse et d'alerte précoce pour l'exploration de données et la prédiction de zones critiques (par exemple les communautés). Son objectif est de constituer un outil de police communautaire de première ligne qui examine la communauté et ses facteurs de risque connexes, et non de cibler et de surveiller les individus. Le système incorporera des technologies de pointe de traitement automatique des langues, combinées à des connaissances d'experts en psychologie des processus de radicalisation, pour fournir une solution complète aux forces de l'ordre pour comprendre le quand, le où et le pourquoi de la radicalisation dans les communautés.
enCollect (COST, 2017-2020): Associer apprentissage des langues et crowdsourcing pour le développement de matériel pédagogique pour l'enseignement des langues et des ressources linguistiques pour le TAL.
DESIR (H2020, 2017-2019): Le projet DESIR vise à contribuer à la pérennité de l'infrastructure DARIAH dans toutes ses dimensions: diffusion, croissance, technologie, robustesse, confiance et éducation. Inria est responsable de la fourniture d'un portefeuille de services d'analyse textuelle s'appuyant sur GROBID et entity-fishing.
HIRMEOS (H2020, 2017-2019): Intégration des manuscrits de recherche dans l'infrastructure européenne pour la science ouverte.
Parthenos (H2020, 2015-2019): Renforcer la coordination de la recherche dans le large périmètre couvrant la linguistique, les humanités, le patrimoine culturel, l'histoire, l'archéologie et les disciplines connexes grâce à un réseau thématique d'infrastructures européennes de recherche, d'e-infrastructures et d'autres infrastructures de classe mondiale, et par la construction de ponts entre ces domaines différents et pourtant fortement reliés.
EHRI “European Holocaust Research Infrastructure” (H2020, 2015-2025): Transformer en profondeur la recherche archivistique sur l'Holocauste en fournissant les méthodes et outils permettant l'intégration et l'accès à des archives multiples et multiformes.
Iperion CH (H2020, 2015-2019): Coordonner les initiatives relatives aux infrastructures pour le domaine du patrimoine culturel.

Projets ANR

REVITALISE (ANR PRCE, 2022-2025): Plus que jamais, avec l'utilisation croissante des solutions de visio-conférence en ligne dans les interactions professionnelles quotidiennes, les compétences en matière de prise de parole en public deviennent cruciales. L'objectif de ce projet est de mieux comprendre les meilleures approches permettant la pratique de la prise de parole en public à l'aide d'outils technologiques. À cette fin, nous étudierons différents environnements de formation (ex : sans un public virtuel/réel) et différentes approches de formation (ex : basées sur la modélisation, basées sur le feedback, basées sur la simulation) pour aider les utilisateurs à acquérir, améliorer et pratiquer les compétences d'expression orale en public en toute autonomie. A cette fin, différents défis de recherche seront abordés pour 1/ apprendre automatiquement, à partir de différents corpus, les indices multimodaux corrélés à la qualité de la prise de parole en public ; 2/ fournir des activités pédagogiques ancrées dans la pratique du coaching, en adoptant une approche centrée sur l'utilisateur et 3/ fournir une évaluation globale de la séance de formation ainsi que les caractéristiques comportementales spécifiques à améliorer.
BASNUM (ANR, 2018-2023): Numérisation et annotation et exploitation computationnelles du dictionnaire encyclopédique d’Henri Basnage de Beauval (1701).
Profiterole (ANR, 2017-2021): Modélisation et analyse automatique du français médiéval.
ParSiTi (ANR, 2016-2022): Analyse syntaxique et traduction automatique de contenus produits par les utilisateurs (User-generated content) en exploitant les informations contextuelles.
TIME-US (ANR, 2016-2021): Analyse des salaires et des budgets-temps dans le secteur textile aux XVIIIème et XIXème siècles.
SoSweet (ANR, 2015-2020): Étude de la variabilité sociolinguistique sur Twitter, en comparant des approches linguistiques/TAL et des approches reposant sur la structure en graphe du réseau.
PARSE-ME (ANR, 2015-2021): Prise en compte des expressions polylexicales en analyse syntaxique.
VerDI (ANR RAPID, 2015-2018): Identification automatique de la dissimulation d’information sur internet.

Autres projets nationaux

PaRAMHTRS (BNF Datalab, 2025-2025):
HTRogène (Biblissima+ Grant, 2024-2025): Le projet se concentre sur la production de transcriptions pour des manuscrits littéraires et des archives publiques ou privées en langues romanes du xie au xvie siècle. Le principal objectif du projet est de produire des données d’entraînement et des modèles de transcriptions résistants aux changements de langue et de main. HTRogène est donc envisagé comme une brique pour l’infrastructure de Biblissima+ et la philologie médiévale des langues romanes : le projet ne se concentre pas sur un texte ou une petite sélection de textes en particulier, mais vise au contraire à produire des exemples de transcription susceptibles de constituer un échantillon représentatif. Cet échantillonnage s’appuie sur des critères spécifiques de langue, de script, de genre ou encore de datation.
HTRomance (BNF Datalab, 2023-2023): Le projet HTRomance est articulé autour de la reconnaissance d’écritures manuscrites (HTR). Il propose en particulier d’évaluer et d’améliorer les capacités de cette technologie lorsqu’elle est appliquée aux manuscrits littéraires et aux archives publiques et privées, en latin et dans les langues romanes, du XIe au XIXe siècle, conservés à la Bibliothèque nationale de France. L’objectif principal du projet est la production de données d’entraînement et de modèles de transcription résistants aux changements d’écritures (mains), voire de langue. Il entend également produire des modèles de langues applicables à des documents en langues anciennes ou à des états de langue anciens. L’élaboration des corpus d’entraînement sera accompagnée et consolidée par l’élaboration et la mise en place d’un processus inédit d’évaluation de la lisibilité des textes de sortie et des coûts de production de nouvelles données d’entraînement pour l’HTR. HTRomance est complémentaire de projets d’édition ou de data mining : les modèles produits sont susceptibles d’être employés pour obtenir les données textuelles nécessaires à l’édition ou à la fouille de texte.
OncoLab (Contrat PIA (AMI santé numérique), 2022-2026): Le project a pour objectif de rendre accessibles les données de cancérologie issues des établissements de santé pour l'ensemble des acteurs de l'écosystème, à des fins de recherche et d'innovation. Les données concernées sont standardisées et structurées, notamment par l'extraction d'informations à partir de documents textuels.
DAdaNMT (Sorbonne Emergence, 2022-2023): Le projet vise à explorer l'adaptation au domaine pour la traduction automatique neuronale. Nous étudierons l'adaptation de modèles aux domaines spécifiques et peu dotés, ainsi que l'entraînement de modèles à plusieurs domaines simultanément.
Gallic(orpor)a (BNF Datalab, 2021-2022): Consolider et d’appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires.
DataCatalogue (Convention (MIC), 2021-2024): Le projet vise à faciliter la transition entre une numérisation patrimoniale des collections de catalogues et l’inscription dans la dynamique “collection as data”. Pour celanous expérimentons le développement d’outils d’extraction de la structure logique des catalogues de vente et leur mise à disposition auprès des institutions et des équipes de recherche.
NER4archives (Convention (MIC, Archives Nationales), 2020-2024): Le projet se concentre sur la reconnaissance et la désambiguïsation des entités nommées dans les instruments de recherche des Archives Nationales de France (AN). La tâche de reconnaissance des entités nommées est appliquée aux ressources XML/EAD et consiste à affiner un Transformer basé sur spaCy. Un wrapper spaCy du package entity-fishing est appliqué pour la désambiguïsation des entités. En outre, les entités sont désambiguïsées par rapport aux Référentiels mises à disposition par l'AN, en se basant sur la manipulation du graphe RDF, des algorithmes de correspondance de chaînes de charactères et une application des CrossEncoders. L'idée est de fusionner cette approche avec une approche fondée sur la structure du graphe reposant sur les GNNs, qui a été partiellement mise en œuvre.
PRAIRIE (3IA, 2019-2024): L'institut PRAIRIE (PaRis AI Research InstitutE) est l'un des quatre instituts français en intelligence artificielle (3IA), créés dans le cadre de l'initiative nationale française sur l'IA annoncée par le président Emmanuel Macron le 29 mai 2018. L'objectif de PRAIRIE est de devenir dans les cinq ans un leader mondial de la recherche et de l'enseignement supérieur en IA, avec un impact fort sur l'économie et la technologie aux niveaux français, européen et mondial. Il rassemble des membres universitaires (« chaires PRAIRIE ») qui excellent dans la recherche et l'éducation dans les domaines méthodologiques de base et les aspects interdisciplinaires de l'IA, et des membres industriels qui sont des acteurs majeurs de l'IA au niveau mondial et un groupe très solide de partenaires internationaux.
DAHN (Convention (MIC, Archives Nationales), 2019-2022): Numérisation et exploitation informatique de documents d'archives présentant un intérêt historique.
Nénufar (DGLFLF & Huma-Num (CORLI, CAHIER), 2019-2019): L'objectif du projet est la numérisation et l'exploitation des premières éditions (début du XXe siècle) du dictionnaire du Petit Larousse. ALMAnaCH est impliqué dans l'extraction automatique du contenu du dictionnaire au moyen du dictionnaire GROBID et dans la définition d'un format d'échange conforme TEI pour tous les résultats.
LECTAUREP (Convention (MIC, Archives Nationales), 2018-2021): Développement d'une plateforme de transcription, lecture et analyse automatique des actes notariés présents dans les Archives nationales.
OPALINe (PIA, 2017-2020): Développement d'outils pour l’accessibilité des livres numériques aux personnes malvoyantes.
Matériaux Anciens et Patrimoniaux (DIM, 2017-2021): Le DIM « Matériaux anciens et patrimoniaux » (MAP) constitue à l’échelle de l’Ile-de-France un réseau de recherche dont l’originalité repose sur la collaboration étroite entre sciences de l’homme, sciences physico-chimiques, sciences de l’environnement et sciences de l’information, tout en intégrant les acteurs économiques et sociaux du monde du patrimoine et de sa valorisation. Un tel réseau interdisciplinaire placera la Région au premier rang mondial en matière de recherche, de développement et de valorisation dans le domaine des sciences du patrimoine et des matériaux anciens.
EFL (LabEx, 2010-2024): Linguistique empirique au sens large, y compris la linguistique computationnelle et le traitement automatique des langues. L’équipe ALPAGE, prédécesseur d’ALMAnaCH, était l’un des partenaires de ce LabEx, qui rassemble une douzaine d’équipes de Paris et de ses environs dont les thématiques de recherche recouvrent au moins l’une des sous-disciplines de la linguistique. Plusieurs membres d’ALMAnaCH sont désormais « membres à titre individuels » du LabEx. B. Sagot est responsable adjoint (et ancien responsable) de l’un des axes de recherche du LabEx, l’axe 6 consacré aux ressources linguistiques. B. Sagot et D. Seddah sont (co-)responsables de plusieurs “operations” de recherche au sein des axes 6, 5 (“analyse sémantique automatique”) et 2 (“grammaire expérimentale”). Nos principales collaborations concernent le développement de ressources linguistiques (axes 5 et 6), l’analyse syntaxique et sémantique (axe 5, en particulier avec le LIPN [CNRS and U. Paris 13]) et la morphologie computationnelle (axes 2 et 6, notamment avec le CRLAO [CNRS and Inalco] et le LLF [CNRS and Paris-Diderot]).

Projets internationaux

BigScience (Informal initiative, 2021-2022): Cette collaboration vise à favoriser des discussions et réflexions autour des questions de recherche autour des grands modèles de langue (capacités, limites, améliorations potentielles, biais, éthique, impact environnemental, rôle dans le paysage général de l'IA et des sciences cognitive) ainsi que les défis liés à la création et au partage de tels modèles et jeux de données à des fins de recherche et au sein de la communauté de recherche. Les tâches collaboratives impliquent la création, le partage et l'évaluation d'un vaste jeu de données multilingues et d'un grand modèle de langue génératif multilingue. Un budget de calcul exceptionnel a été alloué à ces tâches collaboratives (plusieurs millions d'heures GPU sur plusieurs milliers de GPU, notamment sur le cluster public français Jean Zay).
NLP Resources for Analyzing Reactions to Major Events in Hebrew and French Social Media (PHC Maïmonide, 2018-2019): Construction de ressources TAL pour l'analyse des réactions aux événements majeurs en hébreu et en français sur les réseaux sociaux.
MCM-NL (ANR-NSF, 2016-2020): Explorer les corrélations entre données issues de la neuro-imagerie (IRMf, EEG) et données issues d'outils de TAL (principalement des analyseurs syntaxiques). Les données proviennent de la lecture du « Petit Prince » en français et en anglais, analysées par plusieurs analyseurs syntaxiques.