spaCy: tokenisation, lemmas et POS
objectif
Expliquer et montrer comment extraire tokens, lemmes et étiquettes morpho-syntaxiques avec spaCy.
code minimal
import spacy
# nlp = spacy.load("fr_core_news_sm") # modèle français
nlp = spacy.blank("fr")
doc = nlp("Les chats poursuivent rapidement la souris.")
[(t.text, t.lemma_, t.pos_) for t in doc]
utilisation
# ajouter un simple rule-based lemmatizer si modèle non chargé
from spacy.lang.fr.lemmatizer import FrenchLemmatizer
# selon versions de spaCy l'API peut varier
variante(s) utile(s)
# reconnaissance d'entités (si modèle avec NER)
# nlp = spacy.load("fr_core_news_md")
# [(ent.text, ent.label_) for ent in nlp("Emmanuel Macron visite Paris.").ents]
notes
- Les modèles ‘sm/md/lg’ changent la qualité et la taille.
- Chargez le modèle de langue pour activer les attributs avancés (lemma_, pos_).