Logiciels et Ressources

Naviguer en utilisant le menu  

Modèles de langue

CamemBERT

CamemBERT

Modèle de langue neuronal du français de type BERT
PAGnol

PAGnol

Modèle de langue neuronal du français de type GPT
FrELMo

FrELMo

Modèle de langue ELMo pour le français
MRELMo

MRELMo

Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)
CamemBERTa

CamemBERTa

Un modèle de language basé sur DeBERTa v3 pour le français
CamemBERT-bio

CamemBERT-bio

Modèle de langue neuronal français pour le domaine biomedical de type BERT
CharacterBERT-UGC

CharacterBERT-UGC

Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.
D'AlemBERT

D'AlemBERT

Modèle de langue neuronal du français moderne de type BERT
MANTa-LM

MANTa-LM

Modèle de langue type encodeur-décodeur basé sur un module de tokenization neural

Corpus bruts

OSCAR

OSCAR

goclassy

goclassy

Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Ungoliant

Ungoliant

Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl

Corpus de parole

Expresso ☕

Expresso ☕

Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive
SpeechMatrix

SpeechMatrix

Corpus parallèle de parole extrait de VoxPopuli

HTR et OCR

KaMI-Lib

KaMI-Lib

KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.
HTR-United

HTR-United

HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)
WikiCremma

WikiCremma

Dataset d'entraînement pour l'HTR sur le français contemporain
CATMuS Médieval

CATMuS Médieval

Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin
eScriptorium Documentation

eScriptorium Documentation

Documentation ouverte et collaborative pour eScriptorium
HTRomance

HTRomance

Vérité de terrain pour l'entraînement de modèles HTR

Traduction automatique

DiscEvalMT

DiscEvalMT

Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.
PFSMB

PFSMB

Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN
PMUMT

PMUMT

Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN
DiaBLa

DiaBLa

Corpus parallèle de dialogues bilingues anglais-français
CoMMuTE

CoMMuTE

Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)
RoCS-MT

RoCS-MT

Jeu d'évaluation pour la robustesse des systèmes de traduction automatique
SONAR

SONAR

SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte
T-modules

T-modules

Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction
VGAMT

VGAMT

Un modèle de traduction multimodale

Simplification de textes

ACCESS

ACCESS

Modèle de Simplification de Textes Controllable
ASSET

ASSET

EASSE

EASSE

tseval

tseval

Lexiques

WOLF

WOLF

Wordnet libre du français
Alexina

Alexina

Lexiques morphologiques (parfois syntaxiques) y compris le Lefff
EtymDB

EtymDB

Base de données étymologiques extraites du wiktionary
OFrLex-modifier

OFrLex-modifier

UDLexicons

UDLexicons

Ensemble multilingue de lexiques morphologiques

Standardisation

SSK

SSK

SSK

SSK

Corpus arborés

FSMB

FSMB

French social media bank
FQB

FQB

Corpus arboré à multiple couches de questions pour le français
Sequoia corpus

Sequoia corpus

Corpus français avec des annotations de surface et de syntaxe profonde

Analyse syntaxique

FRMG

FRMG

Méta-grammaire linguistique du français à large couverture
dyalog-sr

dyalog-sr

Analyseur syntaxique par transition construit au dessus du système DyALog
DyALog

DyALog

Environnement pour construire des parseurs et programmes tabulés
ELMoLex

ELMoLex

Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue
Mgwiki

Mgwiki

Wiki linguistique esentiellement dédié à FRMG
SYNTAX

SYNTAX

Générateur d'analyseurs lexicaux et syntaxiques

Analyse de surface et étiquetage morphosyntaxique

GROBID

GROBID

Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts
GROBID-Dictionaries

GROBID-Dictionaries

Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées
SxPipe

SxPipe

Chaîne de traitement peu profond
entity-fishing

entity-fishing

Reconnaissance d'entités et désambiguïsation
MElt

MElt

Étiqueteur statistique en parties du discours
CCASS-sim

CCASS-sim

Outil de détection de similarité des textes de la Cour de Cassation
D'AlemBERT POS

D'AlemBERT POS

Étiqueteur en parties de discourse pour le français moderne
D'AlemBERT NER

D'AlemBERT NER

Modèle de reconnaissance d'entités nommées pour le français moderne
DESIR-CodeSprint-TrackA-TextMining

DESIR-CodeSprint-TrackA-TextMining

Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.
grobid-medical-report

grobid-medical-report

Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI
ModFr-norm

ModFr-norm

Normalisation du français moderne (du 17è siècle)
nerdKid

nerdKid

NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).

Logiciels industriels

Enqi

Enqi

vera

vera

Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés
feats2notes

feats2notes

Generation of notes from structured data

Autres corpus annotés

VerDI project release

VerDI project release

3MT_French Dataset

3MT_French Dataset

Corpus Ma Thèse en 180 secondes
FreEM-corpora

FreEM-corpora

Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)