Modèle de langue neuronal du français de type BERT
PAGnol
Modèle de langue neuronal du français de type GPT
FrELMo
Modèle de langue ELMo pour le français
MRELMo
Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)
CamemBERTa
Un modèle de language basé sur DeBERTa v3 pour le français
CamemBERT-bio
Modèle de langue neuronal français pour le domaine biomedical de type BERT
CharacterBERT-UGC
Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.
D'AlemBERT
Modèle de langue neuronal du français moderne de type BERT
MANTa-LM
Modèle de langue type encodeur-décodeur basé sur un module de tokenization neural
Corpus bruts
OSCAR
goclassy
Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Ungoliant
Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Corpus de parole
Expresso ☕
Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive
SpeechMatrix
Corpus parallèle de parole extrait de VoxPopuli
HTR et OCR
KaMI-Lib
KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.
HTR-United
HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)
WikiCremma
Dataset d'entraînement pour l'HTR sur le français contemporain
CATMuS Médieval
Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin
eScriptorium Documentation
Documentation ouverte et collaborative pour eScriptorium
HTRomance
Vérité de terrain pour l'entraînement de modèles HTR
Traduction automatique
DiscEvalMT
Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.
PFSMB
Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN
PMUMT
Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN
DiaBLa
Corpus parallèle de dialogues bilingues anglais-français
CoMMuTE
Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)
RoCS-MT
Jeu d'évaluation pour la robustesse des systèmes de traduction automatique
SONAR
SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte
T-modules
Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction
VGAMT
Un modèle de traduction multimodale
Simplification de textes
ACCESS
Modèle de Simplification de Textes Controllable
ASSET
EASSE
tseval
Lexiques
WOLF
Wordnet libre du français
Alexina
Lexiques morphologiques (parfois syntaxiques) y compris le Lefff
EtymDB
Base de données étymologiques extraites du wiktionary
OFrLex-modifier
UDLexicons
Ensemble multilingue de lexiques morphologiques
Standardisation
SSK
SSK
Corpus arborés
FSMB
French social media bank
FQB
Corpus arboré à multiple couches de questions pour le français
Sequoia corpus
Corpus français avec des annotations de surface et de syntaxe profonde
Analyse syntaxique
FRMG
Méta-grammaire linguistique du français à large couverture
dyalog-sr
Analyseur syntaxique par transition construit au dessus du système DyALog
DyALog
Environnement pour construire des parseurs et programmes tabulés
ELMoLex
Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue
Mgwiki
Wiki linguistique esentiellement dédié à FRMG
SYNTAX
Générateur d'analyseurs lexicaux et syntaxiques
Analyse de surface et étiquetage morphosyntaxique
GROBID
Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts
GROBID-Dictionaries
Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées
SxPipe
Chaîne de traitement peu profond
entity-fishing
Reconnaissance d'entités et désambiguïsation
MElt
Étiqueteur statistique en parties du discours
CCASS-sim
Outil de détection de similarité des textes de la Cour de Cassation
D'AlemBERT POS
Étiqueteur en parties de discourse pour le français moderne
D'AlemBERT NER
Modèle de reconnaissance d'entités nommées pour le français moderne
DESIR-CodeSprint-TrackA-TextMining
Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.
grobid-medical-report
Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI
ModFr-norm
Normalisation du français moderne (du 17è siècle)
nerdKid
NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).
Logiciels industriels
Enqi
vera
Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés
feats2notes
Generation of notes from structured data
Autres corpus annotés
VerDI project release
3MT_French Dataset
Corpus Ma Thèse en 180 secondes
FreEM-corpora
Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)