Logiciels et Ressources

Naviguer en utilisant le menu  

Modèles de langue

CamemBERT

CamemBERT

Modèle de langue neuronal du français de type BERT
PAGnol

PAGnol

Modèle de langue neuronal du français de type GPT
FrELMo

FrELMo

Modèle de langue ELMo pour le français
MRELMo

MRELMo

Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)
D'AlemBERT

D'AlemBERT

Modèle de langue neuronal du français moderne de type BERT
CamemBERTa

CamemBERTa

Un modèle de language basé sur DeBERTa v3 pour le français
CamemBERT-bio

CamemBERT-bio

Modèle de langue neuronal français pour le domaine biomedical de type BERT
MANTa-LM

MANTa-LM

Un tokenizer différenciable formé de bout en bout avec le modèle de langage.
CharacterBERT-UGC

CharacterBERT-UGC

Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.
Bloom

Bloom

Grand modèle de langue multilingue ouvert

Corpus bruts

OSCAR

OSCAR

Très grand corpus multilingue extrait du web
goclassy

goclassy

Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Ungoliant

Ungoliant

Pipeline à hautes performances qui fournit des outils pour créer des pipelines de génération de corpus à partir de CommonCrawl.
mOSCAR

mOSCAR

Corpus web multilingue et multimodal (texte-images) à grande échelle

Corpus de parole

SpeechMatrix

SpeechMatrix

Corpus parallèle de parole extrait de VoxPopuli
Expresso

Expresso

Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive

HTR et OCR

KaMI-Lib

KaMI-Lib

KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.
HTR-United

HTR-United

HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)
WikiCremma

WikiCremma

Dataset d'entraînement pour l'HTR sur le français contemporain
eScriptorium Documentation

eScriptorium Documentation

Documentation ouverte et collaborative pour eScriptorium
HTRomance

HTRomance

Vérité de terrain pour l'entraînement de modèles HTR
CATMuS Medieval (Dataset)

CATMuS Medieval (Dataset)

Jeu de données diverses et à grande échelle pour la reconnaissance de textes manuscrits dans les manuscrits médiévaux
CATMuS Médieval (Modèle)

CATMuS Médieval (Modèle)

Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin

Traduction automatique

DiscEvalMT

DiscEvalMT

Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.
PFSMB

PFSMB

Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN
PMUMT

PMUMT

Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN
DiaBLa

DiaBLa

Corpus parallèle de dialogues bilingues anglais-français
VGAMT

VGAMT

Un modèle de traduction multimodale
CoMMuTE

CoMMuTE

Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)
RoCS-MT

RoCS-MT

Jeu d'évaluation pour la robustesse des systèmes de traduction automatique
SONAR

SONAR

SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte
T-modules

T-modules

Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction

Simplification de textes

ACCESS

ACCESS

Modèle de Simplification de Textes Controllable
ASSET

ASSET

EASSE

EASSE

tseval

tseval

Lexiques

WOLF

WOLF

Wordnet libre du français
Alexina

Alexina

Lexiques morphologiques (parfois syntaxiques) y compris le Lefff
OFrLex-modifier

OFrLex-modifier

Interface en ligne permettant la modification collaborative du lexique OFrLex
EtymDB

EtymDB

Base de données étymologiques extraites du wiktionary
UDLexicons

UDLexicons

Ensemble multilingue de lexiques morphologiques

Standardisation

SSK

SSK

SSK

SSK

Collection de scénarios de cas d'usage illustrant les bonnes pratiques en matière de recherche en humanités numériques et sur le patrimoine

Corpus arborés

Sequoia corpus

Sequoia corpus

Corpus français avec des annotations de surface et de syntaxe profonde
FQB

FQB

Corpus arboré à multiple couches de questions pour le français
FSMB

FSMB

French social media bank
Narabizi Treebank

Narabizi Treebank

Un corpus arboré multi-couche pour le dialecte de l'arabe parlé en Afrique du nord et écrit en script latin.

Analyse syntaxique

FRMG

FRMG

Méta-grammaire linguistique du français à large couverture
SYNTAX

SYNTAX

Générateur d'analyseurs lexicaux et syntaxiques
DyALog

DyALog

Environnement pour construire des parseurs et programmes tabulés
Mgwiki

Mgwiki

Wiki linguistique esentiellement dédié à FRMG
dyalog-sr

dyalog-sr

Analyseur syntaxique par transition construit au dessus du système DyALog
ELMoLex

ELMoLex

Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue

Analyse de surface et étiquetage morphosyntaxique

SxPipe

SxPipe

Chaîne de traitement peu profond
GROBID-Dictionaries

GROBID-Dictionaries

Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées
GROBID

GROBID

Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts
entity-fishing

entity-fishing

Reconnaissance d'entités et désambiguïsation
MElt

MElt

Étiqueteur statistique en parties du discours
grobid-medical-report

grobid-medical-report

Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI
DESIR-CodeSprint-TrackA-TextMining

DESIR-CodeSprint-TrackA-TextMining

Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.
ModFr-norm

ModFr-norm

Normalisation du français moderne (du 17è siècle)
nerdKid

nerdKid

NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).
CCASS-sim

CCASS-sim

Outil de détection de similarité des textes de la Cour de Cassation
D'AlemBERT NER

D'AlemBERT NER

Modèle de reconnaissance d'entités nommées pour le français moderne
D'AlemBERT POS

D'AlemBERT POS

Étiqueteur en parties de discourse pour le français moderne

Logiciels industriels

vera

vera

Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés
Enqi

Enqi

feats2notes

feats2notes

Génération de commentaires à partir des données structurées

Autres corpus annotés

VerDI project release

VerDI project release

Outils de détection d'omissions dans des contenus journalistiques.
FreEM-corpora

FreEM-corpora

Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)
3MT_French Dataset

3MT_French Dataset

Corpus Ma Thèse en 180 secondes