Et surtout du SSPCloud et de Git

Ressources de l’an dernier
L’ensemble des ressources de l’an dernier (“Du champ à l’assiette”) peut être retrouvée sur inseefrlab.github.io/funathon2023/
Liens utiles
Tchap Funathon 2024Zoom sur les deux joursGit et à la reproductibilitéPlus de fun en équipe 😺
N’hésitez pas à traiter les sujets en équipe
Présentation des 4 sujets
Retrouver les sujets sur inseefrlab.github.io/funathon2024/
Important
Plateforme recommandée pour cet événement
SSP Cloud pour créer un RStudio ou Jupyter
Github, GitlabMinIONote
Les services durent plusieurs jours mais n’ont pas vocation à persister
Des technologies spéciales pour les bases de données
Des technologies adaptées aux données volumineuses
Les statisticiens ayant découvert le SSPCloud, quand ils doivent revenir à leur infra habituelle
Connexion et Créer un compte
Connexion
AgentConnect est très pratiqueTchap:
SSPCloud de manière générale ;Funathon 2024 pendant cet événement ;https://docs.sspcloud.fr/onyxia-guide/premiere-utilisation
README, lisez-le 😉Git (avec Github ou Gitlab ) pour sauvegarder vos notebooks et codesMinIO pour sauvegarder vos donnéesGit https://docs.sspcloud.fr/onyxia-guide/controle-de-version
GitHub, GitLab…)MinIOhttps://docs.sspcloud.fr/onyxia-guide/stockage-de-donnees
Python (Boto3 ou S3Fs) ou R (aws.s3)MinIOPython (Sujet d’analyse textuelle)Pour le lien de lancement Python
N’oubliez pas de remplacer dans l’onglet Init l’URL du dépôt pré-rempli par le vôtre (l’URL de votre fork)
Git : quelques conceptsNote
Plus d’éléments dans la formation officielle

originGit et RGit pour PythonutilitR propose plusieurs chapitres sur GitGitRStudio 🚀S3Git à travers l’interface RStudioGit, RStudio et GitlabGitGit:
Git sur AUSGit !Exemple à partir du sujet 2
S3bucket <- "donnees-insee"
aws.s3::get_bucket(bucket, region = "")
df <-
aws.s3::s3read_using(
FUN = data.table::fread,
# Mettre les options de FUN ici
object = "diffusion/FILOSOFI/2016/FILOSOFI_COM.csv",
bucket = "donnees-insee",
opts = list("region" = "")
)
aws.s3::s3write_using(
df,
FUN = data.table::fwrite,
# Les options de fread sont ici
sep = " ;",
col.names = TRUE,
object = "data/filosofi2016_example.csv",
bucket = "MON_BUCKET_A_REMPLACER",
opts = list("region" = "")
)Pour lister les fichiers dans un bucket:
bucket <- "projet-funathon"
aeroports <- aws.s3::get_bucket(bucket, region = "", prefix = "2024/sujet2/")Pour lire un fichier directement:
Jupyter 🚀Exemple avec Python (Sujet d’analyse textuelle)
S3Voir https://pythonds.linogaliana.fr/content/modern-ds/s3.html
GitVoir https://pythonds.linogaliana.fr/content/git/exogit.html
Funathon 2024, présentation de l’événement