Ce projet est réalisé sur le system Ubuntu 10.10
Les travaux sont séparés par plusieurs étapes, ce que je présente ici est 1ère partie pour extraire les termes du corpus.
1. je prépare le corpus “corpus-guide_alimentaire.pdf”
2. Conversation le fichier PDF vers TXT, la commande “pdftotext” nous permet de faire cette conversation.
3. Vérification le codage du fichier, par la commande “file nomfichier”.
4. cette étape de treetagger, pour sortir une liste avec chaque élément annoté sa catégorie et son lemme, mais avant de faire une analyse par tree-tagger, une filtrage est obligatoire d’exécuter, la liste ci-dessous contient des caractères spécifiques, et ces caractères spécifiques ne peuvent pas être analysé par le programme YaTeA, donc, ces caractères soit supprimés soit remplacés par la colonne à droit:
œ oe
•
●
■
’ ‘
“ ”
” ”
– –
… …
€ E
Après avoir filtré, je commence l’analyse de tree-tagger.
Attention, afin de permettre YaTeA bien marcher, il y a encore une petite chose à filtrer, par exemple, le mot “œuf”, on a déjà remplacé par “oeuf”, mais quand le treetagger sort le résultat, il considère “œuf” est le lemme de mot “oeuf”, aussi “bœuf” est le lemme de mot “boeuf”.
5. Cette étape, j’utilise le programme de Flemm,
6. La dernière étape, j’utilise YaTeA pour extraire les termes des deux résultats, un de treetagger, un de Flemm