MTES-MCT
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 1 deletion b/‎.gitignore‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎02-generalite.Rmd‎
Lines changed: 10 additions & 7 deletions b/‎02-generalite.Rmd‎
Lines changed: 10 additions & 7 deletions
diff --git a/‎03-interface.Rmd‎
Lines changed: 10 additions & 18 deletions b/‎03-interface.Rmd‎
Lines changed: 10 additions & 18 deletions
diff --git a/‎04-get_started.Rmd‎
Lines changed: 4 additions & 4 deletions b/‎04-get_started.Rmd‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎05-premier_jeu_donnees.Rmd‎
Lines changed: 7 additions & 8 deletions b/‎05-premier_jeu_donnees.Rmd‎
Lines changed: 7 additions & 8 deletions
diff --git a/‎06-manip.Rmd‎
Lines changed: 2 additions & 6 deletions b/‎06-manip.Rmd‎
Lines changed: 2 additions & 6 deletions
diff --git a/‎07-stats.Rmd‎
Lines changed: 27 additions & 21 deletions b/‎07-stats.Rmd‎
Lines changed: 27 additions & 21 deletions
diff --git a/‎08-graph.Rmd‎
Lines changed: 11 additions & 12 deletions b/‎08-graph.Rmd‎
Lines changed: 11 additions & 12 deletions
@@ -7,4 +7,4 @@ _book
 _bookdown_files
 output/*
 z_archives/*
-
+*.html
@@ -18,8 +18,10 @@ cat(a, sep = '\n')
 
 ## R c'est quoi ?
 
+![](images/Rlogo.jpg){width=50px}
+
 - Un langage de programmation interprété exécutable pas à pas $\rightarrow$ lignes de code
-- Un logiciel interactif permettant de traiter divers types de données
+- Un logiciel interactif permettant de traiter divers types de données 
 
 
 ## Un peu d'histoire
@@ -31,13 +33,14 @@ Computational and Graphical Statistics*, 5(3), 299–314](https://www.stat.auckl
 
 - S'est d'abord développé dans le monde académique, puis a essaimé vers d'autres domaines professionnels, voire associatifs
 
-
 - Système toujours d’actualité - Mise à jour tous les 6 mois
 
-- Avenir dans la statistique publique : adopté comme standard par l'Insee (à l'horizon 2025) et divers SSM. Des packages pour :
+- Avenir dans la statistique publique : adopté comme standard par l'Insee (à l'horizon 2025) et divers SSM. 
+
+- Des packages pour :
     - charger les données produites par l'Insee au format sdmx,
     - charger les formats des organisations internationales (Eurostat, OCDE, ONU, etc.),
-    - charger des couches spatiales shp ou autres,
+    - charger des couches spatiales shp, flux ou autres,
     - charger le cadastre au format EDIGEO, ...
     - interroger facilement des API,  
     - interagir avec des bases de données, 
@@ -62,14 +65,14 @@ C'est un logiciel libre : les utilisateurs ont la liberté d'exécuter, copier,
 
 ## Que peut-on faire avec R ?
 
-- Lire des données de formats divers
+- Lire des données de formats divers, les convertir
 - Les manipuler (prétraitements)
 - Les enrichir à partir de données externes
 - Les analyser, les modéliser, 
 - Présenter les résultats (tableaux, graphiques, cartes)
 - Publier...
 
-... et ce au moyen d'une palette de méthodes extrêmement diversifiée.
+... et ce au moyen d'une palette de méthodes extrêmement diversifiées.
 
 Privilégie la flexibilité et le découpage des traitements en parties simples.
 
@@ -88,7 +91,7 @@ De base, R permet déjà de faire un très grand nombre de choses avec son socle
 library(help = 'base')
 ```
 
-Sur ce package `base` vient se greffer un ensemble de packages (plugins, modules) complémentaires.
+Sur ce package `base` vient se greffer un ensemble de packages (plugins, modules, librairies, extensions) complémentaires.
 Un package est une bibliothèque de fonctions. La plupart de ceux qui font référence sont mis à disposition de tous sur le dépôt CRAN.
 
 Cela permet d'étendre à l'infini les possibilités de R : celles-ci sont seulement limitées par la volonté de développement (et de maintien) des utilisateurs.
 
@@ -16,14 +16,15 @@ L’interface RStudio est composée de différents panneaux, dont l’arrangemen
 ## Session et répertoire de travail
 
 - Session de travail R : commence à l'ouverture de RStudio et se termine en le quittant.
-- Répertoire de travail R : dossier dans lequel le logiciel va chercher les fichiers de scripts et de données.
+- Répertoire de travail R : dossier à partir duquel le logiciel va chercher les fichiers de scripts et de données.
+
 - Tout ce qui a été fait au cours d'une session peut être enregistré dans le répertoire de travail :
     - données
     - historique des fonctions …
 
 Nouvelles fonctions                               |Attention
 --------------------------------------------------|----------------------------------------
-`setwd()` pour définir un répertoire de travail   |Seulement / et pas \\ 
+`setwd()` pour définir un répertoire de travail   |Seulement / et pas \\, chemin entre `"path"` 
 `help()` et ? pour afficher l'aide                |.
 `dir()` pour lister un répertoire                 |.
 
@@ -88,20 +89,11 @@ Nouvelles fonctions                               |Attention pour le nommage des
 Adopter des règles de nommage cohérentes, par exemples [celles-ci](http://adv-r.had.co.nz/Style.html).
 ATTENTION : un nom de variable ne peux pas commencer par un chiffre et certains noms sont interdits (voir 4.6)
 
-## C'est à vous : créer et manipuler des variables
+## C'est à vous : créer et manipuler des variables (Exercice 1)
+
+```{r mod1_exo1, child=charge_exo("m1", "exo1.rmd"), echo=FALSE}
 
-- Créer plusieurs variables numériques par assignation `a <- 5`, `b <- 4`
-- Regarder l'onglet Environnement
-- Afficher la liste des variables avec la fonction `ls()`
-- Faire un calcul avec ces variables et voir le résultat `(a+b)` etc.
-- Créer une troisième variable à partir des deux premières `c <- a+b*3`
-- Ré-assigner une variable : `a<-10` et vérifier l'onglet environnement
-- Créer une variable chaîne de caractère (utilisation des simples quotes et des double-quotes) `t <- 'chaine'`
-- Concaténer `a` et `t` avec `paste(a,t)` 
-- Expérimenter la casse des noms de variables : créer `A <- 15` et `B <- 12` et vérifier l'onglet environnement
-- Supprimer les variables `A` et `B` avec la fonction `rm()`
-- Aide en ligne `?ls` et `?rm`
-- Attention : Pour supprimer toutes les variables `rm(list = ls())`
+```
 
 
 ## Utilité des scripts
@@ -122,9 +114,9 @@ Utilisation simple de R $\rightarrow$ mode console. Chaque ordre, bout de code e
 
 Actions plus complexes, longues, nécessitant une maintenance, des modifications $\rightarrow$ travailler à partir de la fenêtre éditeur. Les parties de code sont enchaînées et enregistrées sous la forme d'un fichier texte réutilisable par la suite.
 
-Toujours utiliser des commentaires. Permet de pouvoir mieux comprendre ce que l'on a fait lorsqu'on reprend un programme plus tard ou lorsqu'on le donne à quelqu'un.
+Toujours utiliser des commentaires, indiquer plus le 'pourquoi' que le 'quoi'. Permet de pouvoir mieux comprendre ce que l'on a fait lorsqu'on reprend un programme plus tard ou lorsqu'on le donne à quelqu'un.
 
-## C'est à vous : utiliser un script
+## C'est à vous : utiliser un script (Exercice 1bis)
 
 - Recopier le script ci-dessous et changer les paramètres pour le re-exécuter plusieurs fois
 - Sauvegarder ce script dans votre répertoire de travail, fermez le
@@ -146,8 +138,8 @@ print (imc)
 ```
 
 ## Installer et charger un *package*
-Pour manipuler notre base de données, nous allons nous servir de fonctionnalités présentes dans le package `tidyverse`. 
 
+Pour manipuler nos données, nous allons nous servir de fonctionnalités présentes dans le package `tidyverse`. 
 La première fois que l'on veut utiliser un package, il faut le télécharger sur notre machine, avec `install.packages()` :
 ```{r, eval=FALSE}
 install.packages("tidyverse")
 
@@ -26,19 +26,19 @@ Une bonne pratique est de créer un sous répertoire `/data` pour stocker les do
 
 Vous pouvez le faire depuis l'explorateur de fichier de votre système d'exploitation ou directement à partir de l'explorateur de fichier de RStudio.
 
-![](images/creerprojet3.png ){#id .class width=500}
+![](images/creerprojet3.png){#id .class width=500}
 
 Cela marche bien quand on a un seul type de données, mais en général on va avoir à travailler sur des données brutes que l'on va retravailler ensuite et vouloir stocker à part. Si par la suite vous souhaitez avoir des exemples de bonnes pratiques sur comment structurer vos données, vous pouvez vous référer au [chapitre data](http://r-pkgs.had.co.nz/data.html) du livre d'Hadley Wickham sur la construction de packages R (tout package R étant aussi un projet !).  
 
 
 ## Créer votre arborescence de projet
 
-- Créer un répertoire `/src` ou vous mettrez vos scripts R.
+- Créer un répertoire `/R` ou vous mettrez vos scripts R.
 - Créer un répertoire `/figures` ou vous mettrez vos illustrations issues de R.  
 
 ## Activer les packages nécessaires
 
-Commencer par rajouter un script dans le répertoire `/src` à votre projet qui commencera par : 
+Commencer par rajouter un script dans le répertoire `/R` à votre projet qui commencera par : 
 
 - activer l'ensemble des packages nécessaires
 
@@ -50,7 +50,7 @@ library(tidyverse)
 library(GGally) 
 library(plotly)
 
-base <- read.csv(file = "extdata/Base_synth_territoires.csv",
+base <- read.csv(file = "extdata/Base_synth_territoires.csv", fileEncoding = 'latin1',
                  header = TRUE, sep = ";", dec = ",")
 
 ```
 
@@ -80,7 +80,7 @@ $\Rightarrow$ Le [module 2 "Préparation des données"](https://mtes-mct.github.
 Conseil : exporter les données au format CSV ; c'est le format le plus interopérable (supporté par tous les logiciels stat). Utiliser ensuite la fonction `read.csv` après avoir défini le répertoire de travail (ou en donnant le chemin complet)
 
 ```{r lecturecsv}
-base0 <- read.csv(file = "extdata/Base_synth_territoires.csv",
+base0 <- read.csv(file = "extdata/Base_synth_territoires.csv", fileEncoding = 'latin1',
                   header = TRUE,
                   sep = ";",
                   dec = ",")
@@ -97,8 +97,10 @@ Autres façons d'importer les données
 
 - Fonction `read_delim`, du package `readr`, plus rapide
 - Fonction `fread`, du package `data.table`, beaucoup plus rapide !!
-- Pour importer les fichiers XLS, ODT ou DBF, il existe des fonctions et des packages spécifiques
-- **Le passage par un fichier csv est très recommandé**
+- Pour importer les fichiers XLS, ODS, SHP ou DBF, il existe des fonctions et des packages spécifiques
+- **Le passage par un fichier csv est très recommandé**.
+
+Note : le [format parquet](https://arrow.apache.org/docs/r/reference/read_parquet.html) est très intéressant pour des tables de plusieurs centaines de milliers de lignes.
 
 
 ## Gérer le type des variables
@@ -149,17 +151,14 @@ On peut importer n'importe quel format de données en R (Excel, SAT, Stata, SQL.
 
 Ici, nous travaillerons sur une base de données communales fournie par l'Insee, dite "comparateur de territoires".
 
-- Utiliser la fonction `read.csv()` pour importer ce fichier et stocker le dans un objet `df`. **Veillez à ce que la région soit bien importée comme un facteur et non un entier**  
-
-- Inspecter le dataframe avec les fonctions vues auparavant pour connaître le nombre de lignes, de colonnes, ... 
-
+```{r mod1_exo2, child=charge_exo("m1", "exo2.rmd"), echo=FALSE}
 
+```
 
 
 ## Catalogue d'attributs de la base  
 
 
-
 - *CODGEO* : [text] Code du département suivi du numéro de commune ou du numéro d'arrondissement municipal
 - *LIBGEO* : [text] Libellé de la commune ou de l'arrondissement municipal pour Paris
 - *REG*: [text] Région
 
@@ -107,14 +107,10 @@ base_rename <- rename(base, ZONE_EMPLOI = ZE)
 
 ## Exercice 3 : créer, filtrer, sélectionner 
 
-- En utilisant la fonction `mutate()`, créer une nouvelle variable correspondant à la densité de population (rapport de la population à la superficie de la commune), ainsi que les taux de natalité et de mortalité (en pour mille de la population 2014)
 
-- A l'aide de la fonction `select()`, créer une nouvelle table en ne conservant que le code commune, le type de commune (ZAU), la région, le département et les variables que vous venez de créer.
-
-- Enfin, ne conserver les communes correspondant à votre département de naissance et stocker ce *dataframe*. Attention au type de la variable département !
-
-- Avec les opérateurs logiques, faire des essais pour sélectionner des échantillons différents (autres départements, densité, l'un et l'autre...).
+```{r mod1_exo3, child=charge_exo("m1", "exo3.rmd"), echo=FALSE}
 
+```
 
 ## Nom d'un pipe `%>%` !
 
 
@@ -12,12 +12,16 @@ summary(base_extrait)
 
 - Les variables quantitatives
 ```{r stat_2}
-summary(pull(base_extrait, NAIS0914))
+base_extrait %>% 
+  pull(NAIS0914) %>% 
+  summary()
 ```
 
 - Les variables qualitatives
 ```{r stat_3}
-summary(pull(base_extrait, ZAU))
+base_extrait %>% 
+  pull(ZAU) %>% 
+  summary()
 ```
 
 ## Calculer des statistiques spécifiques
@@ -26,10 +30,21 @@ Les fonctions `sum()`, `mean()`, `median()`, `min()`, `max()`, `var()`, `sd()`..
 La fonction `quantile()` renvoie les quartiles de la variables (ou bien tout autre découpage qu'on lui renseigne).
 
 ```{r stat_4}
-sum(pull(base_extrait, P14_POP), na.rm = TRUE)
-mean(pull(base_extrait, P14_POP), na.rm = TRUE)
-median(pull(base_extrait, P14_POP), na.rm = TRUE)
-quantile(pull(base_extrait, P14_POP), probs = c(0.25, 0.5, 0.75), na.rm = T)
+base_extrait %>% 
+  pull(P14_POP) %>% 
+  sum(na.rm = TRUE)
+
+base_extrait %>% 
+  pull(P14_POP) %>% 
+  mean(na.rm = TRUE)
+
+base_extrait %>% 
+  pull(P14_POP) %>% 
+  median(na.rm = TRUE)
+
+base_extrait %>% 
+  pull(P14_POP) %>% 
+  quantile(probs = c(0.25, 0.5, 0.75), na.rm = TRUE)
 ```
 
 Ces fonctions retournent une valeur, ou bien un ensemble de valeur (pour `quantile()`). Le résultat est donc un vecteur de un ou plusieurs nombres.
@@ -40,7 +55,7 @@ Ces fonctions retournent une valeur, ou bien un ensemble de valeur (pour `quanti
 
 <center>![](images/summarise.png)</center>
 
-La fonction `summarise()` permet d'aggréger des données, en appliquant une fonction sur les variables pour construire une statistique sur les observations de la table. C'est une fonction dite de “résumé”.
+La fonction `summarise()` permet d'agréger des données, en appliquant une fonction sur les variables pour construire une statistique sur les observations de la table. C'est une fonction dite de “résumé”.
 
 ```{r stat_5, eval=FALSE}
 summarise(TableEnEntree, NomVariableAgregee = Fonction(NomVariableEtude))
@@ -60,15 +75,15 @@ La fonction `summarise()` retourne un data.frame.
 La fonction `summarise()` couplée à `group_by()` permet de calculer des statistiques pour chaque modalité d'une variable qualitative. Avec `group_by()`, on précise les variables qui formeront des groupes, sur lesquels on appliquera une fonction :
 
 ```{r, eval=FALSE}
-TableauGroupes <- group_by(TableEnEntree, Variable1, ..., VariableN)
-summarise(TableauGroupes, NomVariableAgregee = Fonction (NomVariableEtude))
+TableauGroupes <- group_by(TableEnEntree, Variable1, ..., VariableN) %>% 
+  summarise(NomVariableAgregee = Fonction (NomVariableEtude))
 ```
 
 Par exemple, si on veut avoir la médiane de la variable P14_POP, pour chaque ZAU et chaque région :
 ```{r stat_7}
 base_reg_ann <- base_extrait %>% 
   group_by(ZAU, REG) %>%
-  summarise(population_med = median (P14_POP, na.rm = TRUE))
+  summarise(population_med = median(P14_POP, na.rm = TRUE))
 ```
 
 
@@ -102,18 +117,9 @@ La fonction `prop.table()` prend en entrée un objet `table` (tableau de conting
 
 ## Exercice 4 : calcul de statistiques 
 
-- Utilisez la fonction `summary()` pour obtenir un résumé de l'ensemble des variables de la table df
-- Calculez maintenant les moyenne, médiane, écart-type et variance de la variable de densité de population. Que constatez-vous ?
-- Utilisez le paramètre `na.rm = TRUE` pour gérer les valeurs manquantes
-- Calculez à présent les quartiles puis déciles de cette variables
-- Calculez la version centrée réduite de la variable de densité. Rappel : on calcule la version centrée réduite d'une variable X en lui appliquant la transformation suivante : $$ STD_X =\dfrac{X-\bar{X}}{\sigma_X}$$ où $\bar{X}$ est la moyenne empirique de X et $\sigma_X$ son écart-type
-
-Tableaux croisés : 
-
-- Calculer le nombre de communes par type d'espace à l'aide de la fonction `table`, et le pourcentage associé
-- Calculer le nombre de communes par région et type d'espace, et les pourcentages associés
-
+```{r mod1_exo4, child=charge_exo("m1", "exo4.rmd"), echo=FALSE}
 
+```
 
 Pour aller plus loin et ajouter des variables de pondération, calculer les profils-ligne ou profils-colonne, rendez-vous au [module 3 "Statistiques descriptives"](https://mtes-mct.github.io/parcours_r_module_statistiques_descriptives/) ou demander à un GF (Gentil Formateur).
 
@@ -5,7 +5,7 @@ Pour réaliser des graphiques, nous choisissons de nous servir du package `ggplo
 
 ```{r graph_1, eval=FALSE}
 install.packages("ggplot2")
-library("ggplot2")
+library(ggplot2)
 library(dplyr)
 ```
 
@@ -20,6 +20,10 @@ Pour découvrir les nombreuses possibilités de `ggplot2`, vous pouvez vous réf
 - [Version anglaise](http://www.sthda.com/english/wiki/ggplot2-barplots-quick-start-guide-r-software-and-data-visualization)
 - [Version française](http://www.sthda.com/french/wiki/ggplot2)
 
+La feuille de triche accessible depuis R Studio rassemble les principales instructions et aide à prendre en main le package :    
+
+![](images/cheatsheet_ggplot2.png){width=750px}
+
 La fonction `aes()` (pour "aesthetics"), utilisée dans l'instruction `ggplot()` permet de définir les données à tracer. On y indique les dimensions que l'on veut représenter sur le graphique. On peut représenter jusqu'à 5 dimensions sur un même graphique, mais attention à la lisibilité !
 
 - 2 variables quanti : x en fonction de y $\rightarrow$ 2 dimensions (nuage de points)
@@ -28,12 +32,12 @@ La fonction `aes()` (pour "aesthetics"), utilisée dans l'instruction `ggplot()`
 - juxtaposer des graphiques en fonction d'une variable quali $\rightarrow$ 5e dimension !
 
 ## Histogramme
-Si on désire un histogramme de log_SUPERF, on fera appel à la fonction `geom_histogram()`. Ce graphique ne présente qu'une seule dimension (la variable quanti dont on veut visualiser la distribution)
+Si on désire un histogramme de `log_SUPERF`, on fera appel à la fonction `geom_histogram()`. Ce graphique ne présente qu'une seule dimension (la variable quanti dont on veut visualiser la distribution)
 
 ```{r graph_3, message=FALSE, warning=FALSE}
 rm(list = ls())
 
-base <- read.csv(file = "extdata/Base_synth_territoires.csv",
+base <- read.csv(file = "extdata/Base_synth_territoires.csv", fileEncoding = 'latin1',
                  header = T, sep=";", dec=",") %>% 
   select(1:24) %>% 
   mutate(log_SUPERF = log(SUPERF),
@@ -72,22 +76,17 @@ Une fois qu'on a généré un graphique avec ggplot, on peut le passer dans la f
 
 ```{r ggplotly,message=FALSE,warning=FALSE}
 library(plotly)
-g <- ggplot(data = base, aes(x = REG, fill = REG)) +
+g <- ggplot(data = base, aes(x = ZAU, fill = ZAU)) +
   geom_bar()
 
 ggplotly(g)
 ```
 
-## Exercice : créer des graphiques
+## Exercice 5 : créer des graphiques
 
-À l'aide de l'aide mémoire `ggplot2` :
+```{r mod1_exo5, child=charge_exo("m1", "exo5.rmd"), echo=FALSE}
 
-- Réaliser un histogramme de la population communale
-- Transformer les données avec la fonction log pour y voir plus clair
-- Faire un barplot du nombre de communes par REG
-- Utiliser le paramètre fill de la fonction `aes()` pour améliorer le graphique
-- Réaliser un graphique (nuage de points) croisant la densité de population et le taux de mortalité
-- Ajouter une dimension supplémentaire avec la couleur des points (paramètre color de `aes()`)
+```
 
 **Note** : avec les fonctions de base, on peut obtenir de nombreux graphiques avec très peu de code, mais moins jolis :