× Description Téléchargement Publication(s) Contact
 Retourner à Logiciels et Ressources

MElt

Étiqueteur statistique en parties du discours

Description

MElt est un étiqueteur séquentiel état-de-l’art librement disponible (LGPL) prévu pour être entraîné au moyen d’un corpus annoté et d’un lexique externe. Il a été initialement développé par Pascal Denis et Benoît Sagot. Les développements récents ont été réalisés par Benoît Sagot. MElt peut faire usage comme modèle probabiliste sous-jacent d’un modèle de type chaîne de Markov à maximum d’entropie (MEMM) ou à perceptron multiclasse (multitron). Son format de sortie est le format Brown (une phrase par ligne, chaque phrase étant une séquence de mots annotés, au format mot/étiquette, séparés par des espaces).

MElt a été entraîné sur divers corpus annotés, avec par exemple les lexiques Alexina comme source d’informations lexicales.

MElt inclut également un wrapper de normalisation pour le traitement de textes bruités, tels que les textes publiés sur le web (forums, blogs, réseaux sociaux). Ce wrapper n’est disponible que pour le français et l’anglais.

MElt peut être réentraîné sur de nouvelles données, à condition qu’elles soient mises au format Brown, au moyen du script MElt-train. Un fichier contenant un lexique externe est nécessaire, mais ce fichier peut être vide si l’on ne souhaite pas faire usage d’informations lexicales externes.

Download

La dernière version de MElt peut être téléchargée à partir du gitlab ici.

MElt est distribué sous une licence GNU LGPLv3.0.

Publication(s)

Si vous utilisez ce travail, merci de citer :

Coupling an annotated corpus and a lexicon for state-of-the-art POS tagging

Pascal Denis and Benoît Sagot. 2012. Language Resources and Evaluation. 46(4). Springer Verlag. 721-736.
HAL PDF
@article{denis_Coupling-an-annotated-corpus_2012,
 author = {Denis, Pascal and Sagot, Benoît},
 doi = {10.1007/s10579-012-9193-0},
 title = {Coupling an annotated corpus and a lexicon for state-of-the-art POS tagging},
 year = {2012}
 journal = {Language Resources and Evaluation},
 volume = {46},
 number = {4},
 publisher = {Springer Verlag},
 pages = {721-736},
 url = {https://hal.inria.fr/inria-00614819},
 pdf = {https://hal.inria.fr/inria-00614819/file/lre12-denis-sagot.pdf},
}

External Lexical Information for Multilingual Part-of-Speech Tagging

Benoît Sagot. 2016. Research Report. RR-8924. Inria Paris.
HAL PDF
@techreport{sagot_External-Lexical-Information-for_2016,
 author = {Sagot, Benoît},
 institution = {Inria Paris},
 title = {External Lexical Information for Multilingual Part-of-Speech Tagging},
 year = {2016}
 type = {Research Report},
 number = {RR-8924},
 url = {https://hal.inria.fr/hal-01330301},
 pdf = {https://hal.inria.fr/hal-01330301v3/file/RR-8924.pdf},
}

Tagset

Le jeu d'étiquettes actuellement utilisé par MElt est come suit (Crabbé & Candito, 2008):

ÉtiquetteDescription
ADJ adjectif
ADJWH adjectif interrogatif
ADV adverbe
ADVWH adverbe interrogatif
CC conjonction de coordination
CLO pronom clitique objet
CLR pronom clitique réflexif
CLS pronom clitique sujet
CS conjonction de subordination
DET déterminer
DETWH déterminant interrogatif
ET mot étranger
I interjection
NC nom commun
NPP nom propre
P préposition
P+D amalgame préposition+determinant
P+PRO amalgame prépositon+pronom
PONCT signe de ponctuation
PREF préfix
PRO pronom plein
PROREL pronom relatif
PROWH pronom interrogatif
V verbe à l'indicatif ou au conditionnel
VIMP verbe à l'imperatif
VINF verbe à l'infinitif
VPP participe passé
VPR participe present
VS verbe au subjonctif

Quand les options de normalisation sont utilisées, d'autres étiquettes peuveut apparaître:

  • quand '-n' est utlisé, Y signifie "token non-final d'une unité multi-token", X signifie "token multiword/multi-étiquette"
  • quand '-N' est utlisé, Y signifie "token non-final d'une unité multi-token", les tokens multimots/multi-étiquettes sont annotés avec des étiquettes de la forme T1+T2+...+Tn (ex.: chépa/CLS+V+ADV)

Contact

Pour plus d'informations ou pour poser une question, merci de contacter Benoît Sagot

Benoit.Sagot[at]inria.fr