Modèle de langue neuronal du français de type BERT
PAGnol
Modèle de langue neuronal du français de type GPT
FrELMo
Modèle de langue ELMo pour le français
MRELMo
Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)
D'AlemBERT
Modèle de langue neuronal du français moderne de type BERT
CamemBERTa
Un modèle de language basé sur DeBERTa v3 pour le français
CamemBERT-bio
Modèle de langue neuronal français pour le domaine biomedical de type BERT
MANTa-LM
Un tokenizer différenciable formé de bout en bout avec le modèle de langage.
CharacterBERT-UGC
Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.
Bloom
Grand modèle de langue multilingue ouvert
Corpus bruts
OSCAR
Très grand corpus multilingue extrait du web
goclassy
Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Ungoliant
Pipeline à hautes performances qui fournit des outils pour créer des pipelines de génération de corpus à partir de CommonCrawl.
mOSCAR
Corpus web multilingue et multimodal (texte-images) à grande échelle
Corpus de parole
SpeechMatrix
Corpus parallèle de parole extrait de VoxPopuli
Expresso
Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive
HTR et OCR
KaMI-Lib
KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.
HTR-United
HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)
WikiCremma
Dataset d'entraînement pour l'HTR sur le français contemporain
eScriptorium Documentation
Documentation ouverte et collaborative pour eScriptorium
HTRomance
Vérité de terrain pour l'entraînement de modèles HTR
CATMuS Medieval (Dataset)
Jeu de données diverses et à grande échelle pour la reconnaissance de textes manuscrits dans les manuscrits médiévaux
CATMuS Médieval (Modèle)
Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin
Traduction automatique
DiscEvalMT
Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.
PFSMB
Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN
PMUMT
Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN
DiaBLa
Corpus parallèle de dialogues bilingues anglais-français
VGAMT
Un modèle de traduction multimodale
CoMMuTE
Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)
RoCS-MT
Jeu d'évaluation pour la robustesse des systèmes de traduction automatique
SONAR
SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte
T-modules
Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction
Simplification de textes
ACCESS
Modèle de Simplification de Textes Controllable
ASSET
EASSE
tseval
Lexiques
WOLF
Wordnet libre du français
Alexina
Lexiques morphologiques (parfois syntaxiques) y compris le Lefff
OFrLex-modifier
Interface en ligne permettant la modification collaborative du lexique OFrLex
EtymDB
Base de données étymologiques extraites du wiktionary
UDLexicons
Ensemble multilingue de lexiques morphologiques
Standardisation
SSK
SSK
Collection de scénarios de cas d'usage illustrant les bonnes pratiques en matière de recherche en humanités numériques et sur le patrimoine
Corpus arborés
Sequoia corpus
Corpus français avec des annotations de surface et de syntaxe profonde
FQB
Corpus arboré à multiple couches de questions pour le français
FSMB
French social media bank
Narabizi Treebank
Un corpus arboré multi-couche pour le dialecte de l'arabe parlé en Afrique du nord et écrit en script latin.
Analyse syntaxique
FRMG
Méta-grammaire linguistique du français à large couverture
SYNTAX
Générateur d'analyseurs lexicaux et syntaxiques
DyALog
Environnement pour construire des parseurs et programmes tabulés
Mgwiki
Wiki linguistique esentiellement dédié à FRMG
dyalog-sr
Analyseur syntaxique par transition construit au dessus du système DyALog
ELMoLex
Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue
Analyse de surface et étiquetage morphosyntaxique
SxPipe
Chaîne de traitement peu profond
GROBID-Dictionaries
Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées
GROBID
Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts
entity-fishing
Reconnaissance d'entités et désambiguïsation
MElt
Étiqueteur statistique en parties du discours
grobid-medical-report
Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI
DESIR-CodeSprint-TrackA-TextMining
Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.
ModFr-norm
Normalisation du français moderne (du 17è siècle)
nerdKid
NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).
CCASS-sim
Outil de détection de similarité des textes de la Cour de Cassation
D'AlemBERT NER
Modèle de reconnaissance d'entités nommées pour le français moderne
D'AlemBERT POS
Étiqueteur en parties de discourse pour le français moderne
Logiciels industriels
vera
Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés
Enqi
feats2notes
Génération de commentaires à partir des données structurées
Autres corpus annotés
VerDI project release
Outils de détection d'omissions dans des contenus journalistiques.
FreEM-corpora
Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)