Projets de recherche

Projets européens

EHRI “European Holocaust Research Infrastructure”

EHRI “European Holocaust Research Infrastructure”

Approches computationnelles pour la recherche archivistique sur l'Holocauste.

DARIAH

DARIAH

Digital Research Infrastructure for the Arts and Humanities.

CounteR

CounteR

Plateforme de veille axée sur la protection de la vie privée destinée à la prédiction du terrorisme violent et de la criminalité, à la contre-radicalisation et à la protection des citoyens.

ATRIUM

ATRIUM

Projets ANR

MaTOS

MaTOS

Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites.

SINNet

SINNet

Réseaux de neurones socio-inspirés.

TraLaLaM

TraLaLaM

Traduire avec de grands modèles de langue.

REVITALISE

REVITALISE

Formation virtuelle aux compétences comportementales pour la prise de parole en public.

Autres projets nationaux

Cap'FALC

Cap'FALC

Développement d'un algorithme de simplification de textes et d'un outil accessible facilitant la production de textes en FALC (« Facile à Lire et à Comprendre »).

NER4archives

NER4archives

Reconnaissance d'entités nommées dans dans les instruments de recherche XML-EAD, une norme d’encodage des instruments de recherche archivistiques.

EFL

EFL

Linguistique empirique au sens large, y compris la linguistique computationnelle et le TAL.

LiLT

LiLT

Problématiques linguistiques dans les technologies du langage.

Huma-Num

Huma-Num

Très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales.

Matériaux Anciens et Patrimoniaux

Matériaux Anciens et Patrimoniaux

Le DIM « Matériaux anciens et patrimoniaux » (MAP) est le réseau de recherche francilien dédié à l’étude des matériaux anciens et patrimoniaux.

Patrimoines matériels – innovation, expérimentation et résilience

Patrimoines matériels – innovation, expérimentation et résilience

Nénufar

Nénufar

Numérisation et exploitation des premières éditions du Petit Larousse.

DataCatalogue

DataCatalogue

Extraction automatique de la structure logique de catalogues de vente.

OncoLab

OncoLab

Standardisation et structuration de données de santé relatives au cancer.

COLaF

COLaF

Ressources et outils pour les langues de France.

TIERED

TIERED

Transformer l'enseignement et la recherche interdisciplinaires au service de nos démocraties en pleine évolution.

HTRogène

HTRogène

Généralisation des modèles HTR à travers la production de données pour les langues romanes su des manuscrits médiévaux.

Projets internationaux

Universal Dependencies Project

Universal Dependencies Project

Le projet Universal Dependencies est un effort communautaire ouvert avec plus de 300 contributeurs produisant près de 200 jeux de données annotés en syntaxe dans plus de 100 langues.

Interpersonality

Interpersonality

Generation et reconnaissance de personalité pour agents conversationnels.

Anciens Projets

Projets européens
  • enCollect (COST, 2017-2020): Associer apprentissage des langues et crowdsourcing pour le développement de matériel pédagogique pour l'enseignement des langues et des ressources linguistiques pour le TAL.
  • DESIR (H2020, 2017-2019): Le projet DESIR vise à contribuer à la pérennité de l'infrastructure DARIAH dans toutes ses dimensions: diffusion, croissance, technologie, robustesse, confiance et éducation. Inria est responsable de la fourniture d'un portefeuille de services d'analyse textuelle s'appuyant sur GROBID et entity-fishing.
  • HIRMEOS (H2020, 2017-2019): Intégration des manuscrits de recherche dans l'infrastructure européenne pour la science ouverte.
  • Parthenos (H2020, 2015-2019): Renforcer la coordination de la recherche dans le large périmètre couvrant la linguistique, les humanités, le patrimoine culturel, l'histoire, l'archéologie et les disciplines connexes grâce à un réseau thématique d'infrastructures européennes de recherche, d'e-infrastructures et d'autres infrastructures de classe mondiale, et par la construction de ponts entre ces domaines différents et pourtant fortement reliés.
  • Iperion CH (H2020, 2015-2019): Coordonner les initiatives relatives aux infrastructures pour le domaine du patrimoine culturel.
Projets ANR
  • BASNUM (ANR, 2018-2023): Numérisation et annotation et exploitation computationnelles du dictionnaire encyclopédique d’Henri Basnage de Beauval (1701).
  • Profiterole (ANR, 2017-2021): Modélisation et analyse automatique du français médiéval.
  • ParSiTi (ANR, 2016-2022): Analyse syntaxique et traduction automatique de contenus produits par les utilisateurs (User-generated content) en exploitant les informations contextuelles.
  • TIME-US (ANR, 2016-2021): Analyse des salaires et des budgets-temps dans le secteur textile aux XVIIIème et XIXème siècles.
  • SoSweet (ANR, 2015-2020): Étude de la variabilité sociolinguistique sur Twitter, en comparant des approches linguistiques/TAL et des approches reposant sur la structure en graphe du réseau.
  • PARSE-ME (ANR, 2015-2021): Prise en compte des expressions polylexicales en analyse syntaxique.
  • VerDI (ANR RAPID, 2015-2018): Identification automatique de la dissimulation d’information sur internet.
Autres projets nationaux
  • HTRomance (BNF Datalab, 2023-2023): Le projet HTRomance est articulé autour de la reconnaissance d’écritures manuscrites (HTR). Il propose en particulier d’évaluer et d’améliorer les capacités de cette technologie lorsqu’elle est appliquée aux manuscrits littéraires et aux archives publiques et privées, en latin et dans les langues romanes, du XIe au XIXe siècle, conservés à la Bibliothèque nationale de France. L’objectif principal du projet est la production de données d’entraînement et de modèles de transcription résistants aux changements d’écritures (mains), voire de langue. Il entend également produire des modèles de langues applicables à des documents en langues anciennes ou à des états de langue anciens. L’élaboration des corpus d’entraînement sera accompagnée et consolidée par l’élaboration et la mise en place d’un processus inédit d’évaluation de la lisibilité des textes de sortie et des coûts de production de nouvelles données d’entraînement pour l’HTR. HTRomance est complémentaire de projets d’édition ou de data mining : les modèles produits sont susceptibles d’être employés pour obtenir les données textuelles nécessaires à l’édition ou à la fouille de texte.
  • DAdaNMT (Sorbonne Emergence, 2022-2023): Le projet vise à explorer l'adaptation au domaine pour la traduction automatique neuronale. Nous étudierons l'adaptation de modèles aux domaines spécifiques et peu dotés, ainsi que l'entraînement de modèles à plusieurs domaines simultanément.
  • Gallic(orpor)a (BNF Datalab, 2021-2022): Consolider et d’appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires.
  • PRAIRIE (3IA, 2019-2023): L'institut PRAIRIE (PaRis AI Research InstitutE) est l'un des quatre instituts français en intelligence artificielle (3IA), créés dans le cadre de l'initiative nationale française sur l'IA annoncée par le président Emmanuel Macron le 29 mai 2018. L'objectif de PRAIRIE est de devenir dans les cinq ans un leader mondial de la recherche et de l'enseignement supérieur en IA, avec un impact fort sur l'économie et la technologie aux niveaux français, européen et mondial. Il rassemble des membres universitaires (« chaires PRAIRIE ») qui excellent dans la recherche et l'éducation dans les domaines méthodologiques de base et les aspects interdisciplinaires de l'IA, et des membres industriels qui sont des acteurs majeurs de l'IA au niveau mondial et un groupe très solide de partenaires internationaux.
  • DAHN (Convention (MIC, Archives Nationales), 2019-2022): Numérisation et exploitation informatique de documents d'archives présentant un intérêt historique.
  • LECTAUREP (Convention (MIC, Archives Nationales), 2018-2021): Développement d'une plateforme de transcription, lecture et analyse automatique des actes notariés présents dans les Archives nationales.
  • OPALINe (PIA, 2017-2020): Développement d'outils pour l’accessibilité des livres numériques aux personnes malvoyantes.
Projets internationaux
  • BigScience (Informal initiative, 2021-2022): Cette collaboration vise à favoriser des discussions et réflexions autour des questions de recherche autour des grands modèles de langue (capacités, limites, améliorations potentielles, biais, éthique, impact environnemental, rôle dans le paysage général de l'IA et des sciences cognitive) ainsi que les défis liés à la création et au partage de tels modèles et jeux de données à des fins de recherche et au sein de la communauté de recherche. Les tâches collaboratives impliquent la création, le partage et l'évaluation d'un vaste jeu de données multilingues et d'un grand modèle de langue génératif multilingue. Un budget de calcul exceptionnel a été alloué à ces tâches collaboratives (plusieurs millions d'heures GPU sur plusieurs milliers de GPU, notamment sur le cluster public français Jean Zay).
  • NLP Resources for Analyzing Reactions to Major Events in Hebrew and French Social Media (PHC Maïmonide, 2018-2019): Construction de ressources TAL pour l'analyse des réactions aux événements majeurs en hébreu et en français sur les réseaux sociaux.
  • MCM-NL (ANR-NSF, 2016-2020): Explorer les corrélations entre données issues de la neuro-imagerie (IRMf, EEG) et données issues d'outils de TAL (principalement des analyseurs syntaxiques). Les données proviennent de la lecture du « Petit Prince » en français et en anglais, analysées par plusieurs analyseurs syntaxiques.