Et surtout du SSPCloud
et de Git
Ressources de l’an dernier
L’ensemble des ressources de l’an dernier (“Du champ à l’assiette”) peut être retrouvée sur inseefrlab.github.io/funathon2023/
Liens utiles
Tchap
Funathon 2024
Zoom
sur les deux joursGit
et à la reproductibilitéPlus de fun en équipe 😺
N’hésitez pas à traiter les sujets en équipe
Présentation des 4 sujets
Important
Plateforme recommandée pour cet événement
SSP Cloud
pour créer un RStudio
ou Jupyter
Github
, Gitlab
MinIO
Note
Les services durent plusieurs jours mais n’ont pas vocation à persister
Des technologies spéciales pour les bases de données
Des technologies adaptées aux données volumineuses
Les statisticiens ayant découvert le SSPCloud
, quand ils doivent revenir à leur infra habituelle
Connexion
et Créer un compte
Connexion
AgentConnect
est très pratiqueTchap
:
SSPCloud
de manière générale ;Funathon 2024
pendant cet événement ;https://docs.sspcloud.fr/onyxia-guide/premiere-utilisation
README
, lisez-le 😉Git
(avec Github
ou Gitlab
) pour sauvegarder vos notebooks et codesMinIO
pour sauvegarder vos donnéesGit
https://docs.sspcloud.fr/onyxia-guide/controle-de-version
GitHub
, GitLab
…)MinIO
https://docs.sspcloud.fr/onyxia-guide/stockage-de-donnees
Python
(Boto3
ou S3Fs
) ou R
(aws.s3
)MinIO
Python
(Sujet d’analyse textuelle)Pour le lien de lancement Python
N’oubliez pas de remplacer dans l’onglet Init
l’URL du dépôt pré-rempli par le vôtre (l’URL de votre fork)
Git
: quelques conceptsNote
Plus d’éléments dans la formation officielle
origin
Git
et R
Git
pour Python
utilitR
propose plusieurs chapitres sur Git
Git
RStudio
🚀S3
Git
à travers l’interface RStudio
Git
, RStudio
et Gitlab
Git
Git
:
Git
sur AUS
Git
!Exemple à partir du sujet 2
S3
bucket <- "donnees-insee"
aws.s3::get_bucket(bucket, region = "")
df <-
aws.s3::s3read_using(
FUN = data.table::fread,
# Mettre les options de FUN ici
object = "diffusion/FILOSOFI/2016/FILOSOFI_COM.csv",
bucket = "donnees-insee",
opts = list("region" = "")
)
aws.s3::s3write_using(
df,
FUN = data.table::fwrite,
# Les options de fread sont ici
sep = " ;",
col.names = TRUE,
object = "data/filosofi2016_example.csv",
bucket = "MON_BUCKET_A_REMPLACER",
opts = list("region" = "")
)
Pour lister les fichiers dans un bucket:
bucket <- "projet-funathon"
aeroports <- aws.s3::get_bucket(bucket, region = "", prefix = "2024/sujet2/")
Pour lire un fichier directement:
Jupyter
🚀Exemple avec Python
(Sujet d’analyse textuelle)
S3
Voir https://pythonds.linogaliana.fr/content/modern-ds/s3.html
Git
Voir https://pythonds.linogaliana.fr/content/git/exogit.html
Funathon 2024, présentation de l’événement