Projets de recherche

Projets européens

DARIAH

DARIAH

Digital Research Infrastructure for the Arts and Humanities.

ATRIUM

ATRIUM

ATRIUM vise à permettre aux chercheurs en arts et sciences humaines d'utiliser des méthodes numériques en facilitant l'accès à un large éventail de flux de travail réutilisables et de services interopérables et composables offerts par les principales infrastructures de recherche dans le domaine des arts et des sciences humaines.

Projets ANR

MaTOS

MaTOS

Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites.

SINNet

SINNet

Réseaux de neurones socio-inspirés.

TraLaLaM

TraLaLaM

Traduire avec de grands modèles de langue.

REVITALISE

REVITALISE

Formation virtuelle aux compétences comportementales pour la prise de parole en public.

Autres projets nationaux

Cap'FALC

Cap'FALC

Développement d'un algorithme de simplification de textes et d'un outil accessible facilitant la production de textes en FALC (« Facile à Lire et à Comprendre »).

NER4archives

NER4archives

Reconnaissance d'entités nommées dans dans les instruments de recherche XML-EAD, une norme d’encodage des instruments de recherche archivistiques.

LiLT

LiLT

Problématiques linguistiques dans les technologies du langage.

Huma-Num

Huma-Num

Très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales.

Matériaux Anciens et Patrimoniaux

Matériaux Anciens et Patrimoniaux

Le DIM « Matériaux anciens et patrimoniaux » (MAP) est le réseau de recherche francilien dédié à l’étude des matériaux anciens et patrimoniaux.

Patrimoines matériels – innovation, expérimentation et résilience

Patrimoines matériels – innovation, expérimentation et résilience

DataCatalogue

DataCatalogue

Extraction automatique de la structure logique de catalogues de vente.

OncoLab

OncoLab

Standardisation et structuration de données de santé relatives au cancer.

COLaF

COLaF

Ressources et outils pour les langues de France.

TIERED

TIERED

Transformer l'enseignement et la recherche interdisciplinaires au service de nos démocraties en pleine évolution.

HTRogène

HTRogène

Généralisation des modèles HTR à travers la production de données pour les langues romanes su des manuscrits médiévaux.

SaLM

SaLM

Le projet SaLM est un effort collaboratif entre Inria Paris et Sciences Po qui vise à améliorer les algorithmes de PNL et de LLM en intégrant les contextes sociaux dans leur développement et leur évaluation.

BackInTime

BackInTime

L'automisation des déchiffrements de l'histoire antique, médiévale et moderne.

AI4IDF

AI4IDF

AI4IDF est un projet de recherche structurant et fédérateur, consacré à l'intelligence artificielle, domaine scientifique et technologique devenu incontournable.

Projets internationaux

Universal Dependencies Project

Universal Dependencies Project

Le projet Universal Dependencies est un effort communautaire ouvert avec plus de 300 contributeurs produisant près de 200 jeux de données annotés en syntaxe dans plus de 100 langues.

Interpersonality

Interpersonality

Generation et reconnaissance de personalité pour agents conversationnels.

Anciens Projets

Projets européens
  • CounteR (H2020, 2021-2024): Afin de soutenir la lutte contre la radicalisation et ainsi prévenir de futures attaques terroristes, le projet CounteR consolide des données provenant de sources diverses dans une plate-forme d'analyse et d'alerte précoce pour l'exploration de données et la prédiction de zones critiques (par exemple les communautés). Son objectif est de constituer un outil de police communautaire de première ligne qui examine la communauté et ses facteurs de risque connexes, et non de cibler et de surveiller les individus. Le système incorporera des technologies de pointe de traitement automatique des langues, combinées à des connaissances d'experts en psychologie des processus de radicalisation, pour fournir une solution complète aux forces de l'ordre pour comprendre le quand, le où et le pourquoi de la radicalisation dans les communautés.
  • enCollect (COST, 2017-2020): Associer apprentissage des langues et crowdsourcing pour le développement de matériel pédagogique pour l'enseignement des langues et des ressources linguistiques pour le TAL.
  • DESIR (H2020, 2017-2019): Le projet DESIR vise à contribuer à la pérennité de l'infrastructure DARIAH dans toutes ses dimensions: diffusion, croissance, technologie, robustesse, confiance et éducation. Inria est responsable de la fourniture d'un portefeuille de services d'analyse textuelle s'appuyant sur GROBID et entity-fishing.
  • HIRMEOS (H2020, 2017-2019): Intégration des manuscrits de recherche dans l'infrastructure européenne pour la science ouverte.
  • Parthenos (H2020, 2015-2019): Renforcer la coordination de la recherche dans le large périmètre couvrant la linguistique, les humanités, le patrimoine culturel, l'histoire, l'archéologie et les disciplines connexes grâce à un réseau thématique d'infrastructures européennes de recherche, d'e-infrastructures et d'autres infrastructures de classe mondiale, et par la construction de ponts entre ces domaines différents et pourtant fortement reliés.
  • EHRI “European Holocaust Research Infrastructure” (H2020, 2015-2024): Transformer en profondeur la recherche archivistique sur l'Holocauste en fournissant les méthodes et outils permettant l'intégration et l'accès à des archives multiples et multiformes.
  • Iperion CH (H2020, 2015-2019): Coordonner les initiatives relatives aux infrastructures pour le domaine du patrimoine culturel.
Projets ANR
  • BASNUM (ANR, 2018-2023): Numérisation et annotation et exploitation computationnelles du dictionnaire encyclopédique d’Henri Basnage de Beauval (1701).
  • Profiterole (ANR, 2017-2021): Modélisation et analyse automatique du français médiéval.
  • ParSiTi (ANR, 2016-2022): Analyse syntaxique et traduction automatique de contenus produits par les utilisateurs (User-generated content) en exploitant les informations contextuelles.
  • TIME-US (ANR, 2016-2021): Analyse des salaires et des budgets-temps dans le secteur textile aux XVIIIème et XIXème siècles.
  • SoSweet (ANR, 2015-2020): Étude de la variabilité sociolinguistique sur Twitter, en comparant des approches linguistiques/TAL et des approches reposant sur la structure en graphe du réseau.
  • PARSE-ME (ANR, 2015-2021): Prise en compte des expressions polylexicales en analyse syntaxique.
  • VerDI (ANR RAPID, 2015-2018): Identification automatique de la dissimulation d’information sur internet.
Autres projets nationaux
  • HTRomance (BNF Datalab, 2023-2023): Le projet HTRomance est articulé autour de la reconnaissance d’écritures manuscrites (HTR). Il propose en particulier d’évaluer et d’améliorer les capacités de cette technologie lorsqu’elle est appliquée aux manuscrits littéraires et aux archives publiques et privées, en latin et dans les langues romanes, du XIe au XIXe siècle, conservés à la Bibliothèque nationale de France. L’objectif principal du projet est la production de données d’entraînement et de modèles de transcription résistants aux changements d’écritures (mains), voire de langue. Il entend également produire des modèles de langues applicables à des documents en langues anciennes ou à des états de langue anciens. L’élaboration des corpus d’entraînement sera accompagnée et consolidée par l’élaboration et la mise en place d’un processus inédit d’évaluation de la lisibilité des textes de sortie et des coûts de production de nouvelles données d’entraînement pour l’HTR. HTRomance est complémentaire de projets d’édition ou de data mining : les modèles produits sont susceptibles d’être employés pour obtenir les données textuelles nécessaires à l’édition ou à la fouille de texte.
  • DAdaNMT (Sorbonne Emergence, 2022-2023): Le projet vise à explorer l'adaptation au domaine pour la traduction automatique neuronale. Nous étudierons l'adaptation de modèles aux domaines spécifiques et peu dotés, ainsi que l'entraînement de modèles à plusieurs domaines simultanément.
  • Gallic(orpor)a (BNF Datalab, 2021-2022): Consolider et d’appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires.
  • PRAIRIE (3IA, 2019-2023): L'institut PRAIRIE (PaRis AI Research InstitutE) est l'un des quatre instituts français en intelligence artificielle (3IA), créés dans le cadre de l'initiative nationale française sur l'IA annoncée par le président Emmanuel Macron le 29 mai 2018. L'objectif de PRAIRIE est de devenir dans les cinq ans un leader mondial de la recherche et de l'enseignement supérieur en IA, avec un impact fort sur l'économie et la technologie aux niveaux français, européen et mondial. Il rassemble des membres universitaires (« chaires PRAIRIE ») qui excellent dans la recherche et l'éducation dans les domaines méthodologiques de base et les aspects interdisciplinaires de l'IA, et des membres industriels qui sont des acteurs majeurs de l'IA au niveau mondial et un groupe très solide de partenaires internationaux.
  • DAHN (Convention (MIC, Archives Nationales), 2019-2022): Numérisation et exploitation informatique de documents d'archives présentant un intérêt historique.
  • Nénufar (DGLFLF & Huma-Num (CORLI, CAHIER), 2019-2019): L'objectif du projet est la numérisation et l'exploitation des premières éditions (début du XXe siècle) du dictionnaire du Petit Larousse. ALMAnaCH est impliqué dans l'extraction automatique du contenu du dictionnaire au moyen du dictionnaire GROBID et dans la définition d'un format d'échange conforme TEI pour tous les résultats.
  • LECTAUREP (Convention (MIC, Archives Nationales), 2018-2021): Développement d'une plateforme de transcription, lecture et analyse automatique des actes notariés présents dans les Archives nationales.
  • OPALINe (PIA, 2017-2020): Développement d'outils pour l’accessibilité des livres numériques aux personnes malvoyantes.
  • EFL (LabEx, 2010-2024): Linguistique empirique au sens large, y compris la linguistique computationnelle et le traitement automatique des langues. L’équipe ALPAGE, prédécesseur d’ALMAnaCH, était l’un des partenaires de ce LabEx, qui rassemble une douzaine d’équipes de Paris et de ses environs dont les thématiques de recherche recouvrent au moins l’une des sous-disciplines de la linguistique. Plusieurs membres d’ALMAnaCH sont désormais « membres à titre individuels » du LabEx. B. Sagot est responsable adjoint (et ancien responsable) de l’un des axes de recherche du LabEx, l’axe 6 consacré aux ressources linguistiques. B. Sagot et D. Seddah sont (co-)responsables de plusieurs “operations” de recherche au sein des axes 6, 5 (“analyse sémantique automatique”) et 2 (“grammaire expérimentale”). Nos principales collaborations concernent le développement de ressources linguistiques (axes 5 et 6), l’analyse syntaxique et sémantique (axe 5, en particulier avec le LIPN [CNRS and U. Paris 13]) et la morphologie computationnelle (axes 2 et 6, notamment avec le CRLAO [CNRS and Inalco] et le LLF [CNRS and Paris-Diderot]).
Projets internationaux
  • BigScience (Informal initiative, 2021-2022): Cette collaboration vise à favoriser des discussions et réflexions autour des questions de recherche autour des grands modèles de langue (capacités, limites, améliorations potentielles, biais, éthique, impact environnemental, rôle dans le paysage général de l'IA et des sciences cognitive) ainsi que les défis liés à la création et au partage de tels modèles et jeux de données à des fins de recherche et au sein de la communauté de recherche. Les tâches collaboratives impliquent la création, le partage et l'évaluation d'un vaste jeu de données multilingues et d'un grand modèle de langue génératif multilingue. Un budget de calcul exceptionnel a été alloué à ces tâches collaboratives (plusieurs millions d'heures GPU sur plusieurs milliers de GPU, notamment sur le cluster public français Jean Zay).
  • NLP Resources for Analyzing Reactions to Major Events in Hebrew and French Social Media (PHC Maïmonide, 2018-2019): Construction de ressources TAL pour l'analyse des réactions aux événements majeurs en hébreu et en français sur les réseaux sociaux.
  • MCM-NL (ANR-NSF, 2016-2020): Explorer les corrélations entre données issues de la neuro-imagerie (IRMf, EEG) et données issues d'outils de TAL (principalement des analyseurs syntaxiques). Les données proviennent de la lecture du « Petit Prince » en français et en anglais, analysées par plusieurs analyseurs syntaxiques.