MElt est un étiqueteur séquentiel état-de-l’art librement disponible (LGPL) prévu pour être entraîné au moyen d’un corpus annoté et d’un lexique externe. Il a été initialement développé par Pascal Denis et Benoît Sagot. Les développements récents ont été réalisés par Benoît Sagot. MElt peut faire usage comme modèle probabiliste sous-jacent d’un modèle de type chaîne de Markov à maximum d’entropie (MEMM) ou à perceptron multiclasse (multitron). Son format de sortie est le format Brown (une phrase par ligne, chaque phrase étant une séquence de mots annotés, au format mot/étiquette, séparés par des espaces).
MElt a été entraîné sur divers corpus annotés, avec par exemple les lexiques Alexina comme source d’informations lexicales.
MElt inclut également un wrapper de normalisation pour le traitement de textes bruités, tels que les textes publiés sur le web (forums, blogs, réseaux sociaux). Ce wrapper n’est disponible que pour le français et l’anglais.
MElt peut être réentraîné sur de nouvelles données, à condition qu’elles soient mises au format Brown, au moyen du script MElt-train. Un fichier contenant un lexique externe est nécessaire, mais ce fichier peut être vide si l’on ne souhaite pas faire usage d’informations lexicales externes.
La dernière version de MElt peut être téléchargée à partir du gitlab ici.
MElt est distribué sous une licence GNU LGPLv3.0.
@article{denis_Coupling-an-annotated-corpus_2012,
author = {Denis, Pascal and Sagot, Benoît},
doi = {10.1007/s10579-012-9193-0},
title = {Coupling an annotated corpus and a lexicon for state-of-the-art POS tagging},
year = {2012}
journal = {Language Resources and Evaluation},
volume = {46},
number = {4},
publisher = {Springer Verlag},
pages = {721-736},
url = {https://hal.inria.fr/inria-00614819},
pdf = {https://hal.inria.fr/inria-00614819/file/lre12-denis-sagot.pdf},
}
@techreport{sagot_External-Lexical-Information-for_2016,
author = {Sagot, Benoît},
institution = {Inria Paris},
title = {External Lexical Information for Multilingual Part-of-Speech Tagging},
year = {2016}
type = {Research Report},
number = {RR-8924},
url = {https://hal.inria.fr/hal-01330301},
pdf = {https://hal.inria.fr/hal-01330301v3/file/RR-8924.pdf},
}
Le jeu d'étiquettes actuellement utilisé par MElt est come suit (Crabbé & Candito, 2008):
Étiquette | Description |
---|---|
ADJ | adjectif |
ADJWH | adjectif interrogatif |
ADV | adverbe |
ADVWH | adverbe interrogatif |
CC | conjonction de coordination |
CLO | pronom clitique objet |
CLR | pronom clitique réflexif |
CLS | pronom clitique sujet |
CS | conjonction de subordination |
DET | déterminer |
DETWH | déterminant interrogatif |
ET | mot étranger |
I | interjection |
NC | nom commun |
NPP | nom propre |
P | préposition |
P+D | amalgame préposition+determinant |
P+PRO | amalgame prépositon+pronom |
PONCT | signe de ponctuation |
PREF | préfix |
PRO | pronom plein |
PROREL | pronom relatif |
PROWH | pronom interrogatif |
V | verbe à l'indicatif ou au conditionnel |
VIMP | verbe à l'imperatif |
VINF | verbe à l'infinitif |
VPP | participe passé |
VPR | participe present |
VS | verbe au subjonctif |
Quand les options de normalisation sont utilisées, d'autres étiquettes peuveut apparaître: