← retour aux snippets

gensim Word2Vec: entraîner vite

entraîner un petit Word2Vec et obtenir des similarités

gensim Word2Vec: entraîner vite

objectif

Expliquer et montrer comment entraîner un petit Word2Vec et obtenir des similarités.

code minimal

from gensim.models import Word2Vec
sentences = [["bonjour","le","monde"], ["hello","world"], ["data","science","monde"]]
w2v = Word2Vec(sentences=sentences, vector_size=50, window=5, min_count=1, workers=1, sg=1, epochs=50)
w2v.wv.most_similar("monde", topn=3)

utilisation

vec = w2v.wv["data"]
len(vec), float(vec.mean())

variante(s) utile(s)

# charger des embeddings préentraînés (GloVe, fastText) via gensim

notes

  • Paramètre sg=1 active Skip-gram (souvent meilleur sur petits corpus).
  • min_count=1 pour l’exemple; augmentez-le en pratique.