gensim Word2Vec: entraîner vite
objectif
Expliquer et montrer comment entraîner un petit Word2Vec et obtenir des similarités.
code minimal
from gensim.models import Word2Vec
sentences = [["bonjour","le","monde"], ["hello","world"], ["data","science","monde"]]
w2v = Word2Vec(sentences=sentences, vector_size=50, window=5, min_count=1, workers=1, sg=1, epochs=50)
w2v.wv.most_similar("monde", topn=3)
utilisation
vec = w2v.wv["data"]
len(vec), float(vec.mean())
variante(s) utile(s)
# charger des embeddings préentraînés (GloVe, fastText) via gensim
notes
- Paramètre sg=1 active Skip-gram (souvent meilleur sur petits corpus).
- min_count=1 pour l’exemple; augmentez-le en pratique.