× Description Téléchargement Publication(s) Contact
 Retourner à Logiciels et Ressources

CamemBERT

Modèle de langue neuronal du français de type BERT

Site web principal

Description

CamemBERT est un modèle de langue état-de-l'art pour le français qui s'appuie sur l'architecture RoBERTa, entraîné sur le sous-corpus français du corpus multilingue OSCAR.

CamemBERT a été initialement évalué sur quatre tâches aval distinctes pour le français: étiquetage en parties du discours (POS), analyse syntaxique en dépendances, reconnaissance d'entités nommées (NER) et inférence en langage naturel (NLI), il améliore l'état de l'art pour la plupart des tâches par rapport aux précédentes approches monolingues et multilingues, ce qui confirme l'efficacité des grands modèles de langue préentraînés pour le français.

Citation et publication(s)

Si vous utilisez ce travail, merci de citer :

Publications principales

Si vous utilisez ce travail, merci de citer :

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de La Clergerie, Djamé Seddah and Benoît Sagot. 2020. CamemBERT: a Tasty French Language Model.
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. pages 7203–7219. Online.
HAL PDF
@inproceedings{martin-etal-2020-camembert,
 address = {Online},
 author = {Martin, Louis and Muller, Benjamin and Ortiz Su{\'a}rez, Pedro Javier and Dupont, Yoann and Romary, Laurent and Villemonte de La Clergerie, {\'E}ric and Seddah, Djam{\'e} and Sagot, Beno{\^i}t},
 title = {{C}amem{BERT}: a Tasty {F}rench Language Model},
year = {2020},
 booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
 pages = {7203--7219},
 doi = {10.18653/v1/2020.acl-main.645},
 url = {https://aclanthology.org/2020.acl-main.645},
 hal_url = {https://hal.inria.fr/hal-02889805},
 hal_pdf = {https://hal.inria.fr/hal-02889805/file/ACL_2020___CamemBERT__a_Tasty_French_Language_Model-6.pdf},
}

Autres publications

Si vous utilisez ce travail, merci de citer :

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Benoît Sagot and Djamé Seddah. 2020. Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement (CAMEMBERT Contextual Language Models for French: Impact of Training Data Size and Heterogeneity ).
In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles. pages 54–65. ATALA et AFCP. Nancy, France.
HAL PDF
@inproceedings{martin-etal-2020-les,
 address = {Nancy, France},
 author = {Martin, Louis and Muller, Benjamin and Ortiz Su{\'a}rez, Pedro Javier and Dupont, Yoann and Romary, Laurent and Villemonte de la Clergerie, {\'E}ric and Sagot, Beno{\^\i}t and Seddah, Djam{\'e}},
 title = {Les mod{\`e}les de langue contextuels Camembert pour le fran{\c{c}}ais : impact de la taille et de l{'}h{\'e}t{\'e}rog{\'e}n{\'e}it{\'e} des donn{\'e}es d{'}entrainement ({C}{AMEM}{BERT} Contextual Language Models for {F}rench: Impact of Training Data Size and Heterogeneity )},
year = {2020},
 booktitle = {Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 2 : Traitement Automatique des Langues Naturelles},
 publisher = {ATALA et AFCP},
 pages = {54--65},
 url = {https://aclanthology.org/2020.jeptalnrecital-taln.5},
 hal_url = {https://hal.archives-ouvertes.fr/hal-02784755},
 hal_pdf = {https://hal.archives-ouvertes.fr/hal-02784755v3/file/151.pdf},
 language = {French},
}

Contact

Pour plus d'informations ou pour poser une question, merci de contacter Benoît Sagot

Benoit.Sagot[at]inria.fr