BCEAO - Jour 1
25 septembre 2023
Source : Peng R., Reproducible Research in Computational Science, Science (2011)
Infrastructure
Outils informatiques
Changements organisationnels
Infrastructure cloud centralisée
Stockage objet
Conteneurisation
Plateforme web de data science
Choix du stockage objet (type S3) vs. Hadoop
La co-localisation des traitements n’est plus justifiée
Une infrastructure adaptée au big data est nécessaire.. mais pas suffisante !
Nécessité d’adapter les pratiques
Parquet
: stockage disqueArrow
: traitement en mémoireSELECT
) : orientation colonneWHERE
) : orientation ligneParquet
: propriétésParquet
: partionnementParquet
ne résout pas tout
Arrow
ne résout pas tout
Développé par Google (2004)
Popularisé par l’implémentation open-source d’Hadoop
Utiliser un format de données adapté (Parquet
)
Utiliser des outils informatiques adaptés
Arrow
/ DuckDB
)Spark
)argo-workflow
Kubernetes
ArgoCD
R
/ Python
Spark
Comment construire une data stack pertinente ?