Snippets
Du code concis, avec une explication claire.
PySpark: fonctions de fenêtre
utiliser Window pour lags, rangs et moyennes mobiles
#pyspark#window#timeseries
PySpark UDF: appliquer une fonction Python
créer un UDF scalaire et l'appliquer à une colonne
#pyspark#udf#functions
PySpark: écrire Parquet partitionné
sauvegarder un DataFrame Parquet partitionné par colonnes
#pyspark#parquet#io
python: concurrent.futures
Pool de threads/process pour IO/CPU.
#python#futures#concurrency
python: csv reader/writer
Lire et écrire CSV sans pandas.
#python#csv#io
python: itertools groupby & chunks
Regrouper trié et découper en chunks.
#python#itertools#groupby
python: gzip lecture/écriture
Compresser et décompresser des fichiers gzip.
#python#gzip#compression
python: multiprocessing Pool.map
Paralléliser une fonction pure sur des éléments.
#python#multiprocessing#parallel
python: regex compilées
Précompiler pour réutilisation rapide.
#python#regex#performance
python: sqlite3 basique
Créer et interroger une base SQLite intégrée.
#python#sqlite3#db
scipy.interpolate: interp1d
Interpolation 1D linéaire et spline.
#scipy#interpolate#interp1d
scipy.stats: KS test
Comparer distributions avec Kolmogorov–Smirnov.
#scipy#ks#stats