BCEAO - Jour 1
25 septembre 2023

Source : Peng R., Reproducible Research in Computational Science, Science (2011)
Infrastructure
Outils informatiques
Changements organisationnels
Infrastructure cloud centralisée
Stockage objet
Conteneurisation
Plateforme web de data science

Choix du stockage objet (type S3) vs. Hadoop
La co-localisation des traitements n’est plus justifiée


Une infrastructure adaptée au big data est nécessaire.. mais pas suffisante !
Nécessité d’adapter les pratiques
Parquet : stockage disqueArrow : traitement en mémoireSELECT) : orientation colonneWHERE) : orientation ligneParquet : propriétésParquet : partionnementParquet ne résout pas tout

Arrow ne résout pas tout
Développé par Google (2004)
Popularisé par l’implémentation open-source d’Hadoop


Utiliser un format de données adapté (Parquet)
Utiliser des outils informatiques adaptés
Arrow / DuckDB)Spark)argo-workflowKubernetesArgoCD

R / PythonSpark
Comment construire une data stack pertinente ?