← retour aux snippets

spaCy: tokenisation, lemmas et POS

extraire tokens, lemmes et étiquettes morpho-syntaxiques avec spaCy

python nlp #spacy#nlp#pos

spaCy: tokenisation, lemmas et POS

objectif

Expliquer et montrer comment extraire tokens, lemmes et étiquettes morpho-syntaxiques avec spaCy.

code minimal

import spacy
# nlp = spacy.load("fr_core_news_sm")  # modèle français
nlp = spacy.blank("fr")
doc = nlp("Les chats poursuivent rapidement la souris.")
[(t.text, t.lemma_, t.pos_) for t in doc]

utilisation

# ajouter un simple rule-based lemmatizer si modèle non chargé
from spacy.lang.fr.lemmatizer import FrenchLemmatizer
# selon versions de spaCy l'API peut varier

variante(s) utile(s)

# reconnaissance d'entités (si modèle avec NER)
# nlp = spacy.load("fr_core_news_md")
# [(ent.text, ent.label_) for ent in nlp("Emmanuel Macron visite Paris.").ents]

notes

  • Les modèles ‘sm/md/lg’ changent la qualité et la taille.
  • Chargez le modèle de langue pour activer les attributs avancés (lemma_, pos_).