BioDataScience-Course
diff --git a/‎DESCRIPTION
Lines changed: 1 addition & 1 deletion b/‎DESCRIPTION
Lines changed: 1 addition & 1 deletion
diff --git a/‎NEWS.md
Lines changed: 6 additions & 0 deletions b/‎NEWS.md
Lines changed: 6 additions & 0 deletions
diff --git a/‎inst/tutorials/C00La_refresh/C00La_refresh.Rmd
Lines changed: 7 additions & 7 deletions b/‎inst/tutorials/C00La_refresh/C00La_refresh.Rmd
Lines changed: 7 additions & 7 deletions
diff --git a/‎inst/tutorials/C01La_confusion/C01La_confusion.Rmd
Lines changed: 78 additions & 80 deletions b/‎inst/tutorials/C01La_confusion/C01La_confusion.Rmd
Lines changed: 78 additions & 80 deletions
@@ -1,5 +1,5 @@
 Package: BioDataScience3
-Version: 2022.1.0
+Version: 2022.2.0
 Title: A Series of Learnr Documents for Biological Data Science 3
 Description: Interactive documents using learnr for studying biological data science (second course).
 Authors@R: c(
 
@@ -1,3 +1,9 @@
+# BioDataScience3 2022.2.0
+
+-   **C00La_rappel** renamed **C00La_refresh** and also totally reworked. Also includes explanations about changes between svbox2021 and svbox2022.
+
+-   **C01La_confusion** and **C01Lb_ml1** revised.
+
 # BioDataScience3 2022.1.0
 
 -   All learnr exercices adapted and tested with svbox2022.
 
@@ -1,10 +1,10 @@
 ---
 title: "Rappel de SDD I et II"
 author: "Guyliann Engels & Philippe Grosjean"
-description: "**SDD III Module 0** Rappel des notions importantes des cours SDD I et II."
+description: "**SDD III** Rappel des cours SDD I et II et nouveautés svbox2022."
 tutorial:
   id: "C00La_refresh"
-version: 2.0.1/15
+version: 2.0.2/14
 output:
   learnr::tutorial:
   progressive: true
@@ -186,7 +186,7 @@ chart(data = crabs, length ~ width %col=% sex | species) +
 
 Il n'est pas aisé de se souvenir du nom de chaque fonction que l'on peut employer avec `chart()` ou avec `ggplot()`. Nous vous proposons pour ce faire une syntaxe alternative. La fonction `gg$` associée au pipe natif de R `|>` permet d'obtenir une liste de toutes les fonctions disponibles que l'on peut ajouter au graphique. Le pipe `|>` va remplacer le `+` et on ajoute avant `geom_point()` l'instruction. `gg$`
 
-```{r, echo = TRUE}
+```{r, echo=TRUE}
 chart(data = crabs, length ~ width %col=% sex | species) |>
   gg$geom_point()
 ```
@@ -296,7 +296,7 @@ L'utilisation d'objets **data.table** requiert quelques modifications présenté
 
 -   Soit vous utilisez une autre famille de fonctions, appelées "speedy" et qui portent le même nom que les fonctions "tidy" et avec une syntaxe similaire la plupart du temps, mais préfixées d'un "s"? comme `sselect()`, `smutate()`, `sgroup_by()`, `ssummarise()`...
 
-```{r, echo = TRUE, eval = FALSE}
+```{r, echo=TRUE, eval=FALSE}
 # Assignation classique avec fonctions "speedy" => version conseillée
 crabs1 <- sselect(crabs, species, sex, length) 
 # Assignation alternative avec fonctions "tidy"
@@ -494,7 +494,7 @@ crabs <- read("crabs", package = "MASS", lang = "fr")
 crabs2 <- smutate(crabs, depth_len5 = (depth/length)^5)
 ```
 
-```{r anova_h3, exercise = TRUE, exercise.setup = "anova_prep"}
+```{r anova_h3, exercise=TRUE, exercise.setup="anova_prep"}
 # Réalisation de l'ANOVA
 anova(crabs_lm <- lm(data = ___, ___ ~ ___))
 # Vérification de l'homoscédasticité
@@ -644,7 +644,7 @@ chart$scores(crabs_pca)
 
 Dans un cas comme celui-ci, il est possible d'analyser plus en détail au delà de cet effet saturant, mais pour cela, il faut l'éliminer d'abord. Une façon de faire consiste à diviser chaque variable numérique par l'une d'entre elles que l'on considère comme plus représentative de l'effet saturant. Ici, c'est la taille globale des crabes, et nous pouvons utiliser, par exemple, la largueur de la carapace `width` comme référence. Faites cette transformation.
 
-```{r acp_h3, exercise = TRUE}
+```{r acp_h3, exercise=TRUE}
 # Calcul des nouvelles variables
 crabs_w <- smutate(___, front_w = ___/___, length_w = ___/___, 
   rear_w = ___/___, depth_w = ___/___, sp_sex = paste0(species, sex))
@@ -701,7 +701,7 @@ crabs_w <- smutate(crabs, front_w = front/width, length_w = length/width,
 crabs_w_pca <- pca(data = crabs_w, ~ front_w + length_w + rear_w + depth_w)
 ```
 
-```{r acp_graph_h2, exercise = TRUE, exercise.setup = "crabs_acp_prep"}
+```{r acp_graph_h2, exercise=TRUE, exercise.setup="crabs_acp_prep"}
 # Graphique des éboulis
 chart$___(___)
 # Représentation dans l’espace des variables
 
@@ -1,10 +1,10 @@
 ---
 title: "Matrices de confusion"
 author: "Guyliann Engels & Philippe Grosjean"
-description: "**SDD III Module 1** Matrices de confusion et métriques qui en découlent."
+description: "**SDD III Module 1** Matrices de confusion et métriques."
 tutorial:
   id: "C01La_confusion"
-  version: 2.1.0/5
+  version: 2.1.1/5
 output:
   learnr::tutorial:
     progressive: true
@@ -29,42 +29,37 @@ BioDataScience3::learnr_server(input, output, session)
 
 ## Objectifs
 
-Il est possible de créer une multitude de classifieurs. Afin de déterminer le classifieur le plus adapté, nous avons besoin d'évaluer sa qualité. L'approche la plus adaptée est d'employer des métriques comme le taux de reconnaissance globale, la précision, le rappel.... Ces métriques se calculent sur base d'une matrice de confusion. Ces métriques sont également employées afin de comparer les classifieurs entre eux.
+Il est possible de créer une multitude de classifieurs différents à partir d'un même jeu de données. Afin de déterminer le classifieur le plus adapté, nous avons besoin d'évaluer la qualité de chacun d'eux. Pour ce faire, nous utilisons des métriques comme le taux de reconnaissance globale, la précision, le rappel.... Ces métriques se calculent sur base d'une matrice de confusion.
 
-Ce tutoriel a pour objectif
+Ce tutoriel a pour objectifs :
 
--   Choisir la bonne métrique
--   Appréhender les matrices de confusion.
--   Appréhender les principales métriques grâce aux calculs à la main de ces dernières à partir d'une matrice de confusion 2 x 2.
+-   Apprendre à choisir la bonne métrique
+-   Appréhender les matrices de confusion
+-   Calculer les principales métriques à partir d'une matrice de confusion 2 x 2
 
 ## Choix des métriques
 
 ```{r qu_metrics}
-#question("Quelle est la métrique la plus adpatée afin de déterminer le nombre d'items d'intéret trouvé parmi l'ensemble des items ?",
-#  answer("Rappel", correct = TRUE),
-#  answer("Spécificité"),
-#  answer("Taux de faux positifs"),
-#  answer("Précision"),
-#  answer("Score F"),
-#  answer("Rappel"),
-#  allow_retry = TRUE, random_answer_order = TRUE,
-#)
-
-question("Quelle est la métrique la plus adpatée afin de mettre en avant le nombre d'items d'intéret trouvé parmi l'ensemble des items ?",
-  answer("Rappel", correct = TRUE, message = "Le rappel permet de connaitre quelle est la fraction de classe X trouvé par l'ordinatuer parmi l'ensemble des items."),
-  answer("Précision", message = "La précision permet de connaitre quelle est la fraction effectivement de classe X que l’ordinateur a classé comme X ?"),
-  answer("Spécificité", message = "La spécificité est l'opposé du rappel. On s'intéresse à la vrai négatif."),
-  answer("Score F", message = "Il s'agit d'une métrique qui combine la précision et le rappel."),
-  allow_retry = TRUE, random_answer_order = TRUE,
-  correct = "Bravo ! Vous avez trouvé la métrique la plus adaptée.",
+question("Quelle est la métrique la plus adaptée pour s'assurer que le classifieur trouve un maximum d'items d'une classe donnée ?",
+  answer("Rappel", correct = TRUE,
+    message = "Le rappel permet de connaitre quelle est la fraction de classe X trouvée par l'ordinateur parmi l'ensemble des items appartenant effectivement à cette classe."),
+  answer("Précision",
+    message = "La précision permet de connaitre quelle est la fraction que l'ordinateur a classé comme X et qui appartient effectivement à cette classe."),
+  answer("Spécificité",
+    message = "La spécificité est l'opposé du rappel. On s'intéresse aux vrais négatifs, donc, les items non classés comme X et qui n'en sont pas."),
+  answer("Score F",
+    message = "Il s'agit d'une métrique qui combine la précision et le rappel."),
+  allow_retry = TRUE,
+  random_answer_order = TRUE,
+  correct = "Vous avez trouvé la métrique la plus adaptée.",
   incorrect = "Attention, Ce n'est pas la bonne métrique.",
   submit_button = "Soumettre une réponse",
   try_again_button = "Resoumettre une réponse")
 ```
 
-## Le taux de reconnaissance global
+## Taux de reconnaissance global
 
-Ces métriques peuvent sembler abstraites. En effectuant un exemple à la main, on peut les appréhender plus facilement. Intéressez-vous pour débuter au taux de reconnaissance globale.
+Ces métriques peuvent sembler abstraites. En les calculant à la main, on peut les appréhender plus facilement. Intéressez-vous, pour débuter, au taux de reconnaissance globale.
 
 ```{r, echo=FALSE, message=FALSE}
 mconf <- dtf(
@@ -75,26 +70,26 @@ rownames(mconf) <- c("A", "B", "C")
 knitr::kable(mconf, caption = "Matrice de confusion dont les colonnes représentent la classification par ordinateur et les lignes la classification manuelle.")
 ```
 
-Sur base de la matrice de confusion fictive ci-dessus, calculez le taux de reconnaissance global du groupe B. Il s'agit de la première étape. Il faut définir les vrais positifs, les faux positifs, les faux négatifs et les vrais négatifs. Ensuite, il faut ensuite calculer la métrique d'intérêt.
+Sur base de la matrice de confusion fictive ci-dessus, calculez le taux de reconnaissance global du groupe B. Il s'agit de la première étape. Il faut définir les vrais positifs, les faux positifs, les faux négatifs et les vrais négatifs. Ensuite, il faut calculer la métrique d'intérêt.
 
-```{r conf1_h2, exercise = TRUE}
-tp <- ___ # TRUE POSITIVE, vrai positif
-fp <- ___ # FALSE POSITIVE, faux positif
-fn <- ___ # FALSE NEGATIVE, faux négatif
-tn <- ___ # TRUE NEGATIVE, vrai négatif
-# calcul de la métrique
-conf <- ___
-conf
+```{r conf1_h2, exercise=TRUE}
+tp <- ___ # vrai positif
+fp <- ___ # faux positif
+fn <- ___ # faux négatif
+tn <- ___ # vrai négatif
+# Calcul de la métrique
+acc <- ___
+acc
 ```
 
 ```{r conf1_h2-hint-1}
 tp <- 160
 fp <- 90
 fn <- 80
 tn <- 440
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+acc <- ___
+acc
 ## Attention, le prochain indice est la solution ##
 ```
 
@@ -104,9 +99,9 @@ tp <- 160
 fp <- 90
 fn <- 80
 tn <- 440
-# calcul de la métrique
-conf <- (tp + tn) / (tp + fp + fn + tn)
-conf
+# Calcul de la métrique
+acc <- (tp + tn) / (tp + fp + fn + tn)
+acc
 ```
 
 ```{r conf1_h2-check}
@@ -116,13 +111,13 @@ conf
 #    )
 #)
 grade_result(
-  pass_if(~ identical(.result, ((160+440)/(160+90+80+440)))),
-  correct = "Bien joué, c'est la somme des vrais positifs et négatifs sur le total général.",
-  incorrect =  "Révise la formule mathématique de taux de reconnaissance"
+  pass_if(~ identical(.result, ((160 + 440) / (160 + 90 + 80 + 440)))),
+  correct = "C'est la somme des vrais positifs et négatifs sur le total général (en d'autres termes, la somme de la diagonale sur le total général).",
+  incorrect =  "Révisez la formule mathématique qui permet de calculer le taux de reconnaissance global."
   )
 ```
 
-## Le taux de vrai positif
+## Taux de vrais positifs
 
 ```{r, echo=FALSE, message=FALSE}
 mconf <- dtf(
@@ -133,26 +128,26 @@ rownames(mconf) <- c("A", "B", "C")
 knitr::kable(mconf, caption = "Matrice de confusion dont les colonnes représentent la classification par ordinateur et les lignes la classification manuelle.")
 ```
 
-Sur base de cette nouvelle matrice de confusion ci-dessus, calculez le **taux de vrais positifs** du groupe C.
+Sur base de la nouvelle matrice de confusion ci-dessus, calculez le **taux de vrais positifs** du groupe C.
 
 ```{r conf2_h2, exercise = TRUE}
 tp <- ___
 fp <- ___
 fn <- ___
 tn <- ___
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+tpr <- ___
+tpr
 ```
 
 ```{r conf2_h2-hint-1}
 tp <- 140
 fp <- 10
 fn <- 100
 tn <- 190
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+tpr <- ___
+tpr
 ## Attention, le prochain indice est la solution ##
 ```
 
@@ -162,18 +157,19 @@ tp <- 140
 fp <- 10
 fn <- 100
 tn <- 190
-# calcul de la métrique
-conf <- tp / (tp + fn)
-conf
+# Calcul de la métrique
+tpr <- tp / (tp + fn)
+tpr
 ```
 
 ```{r conf2_h2-check}
 grade_result(
-  pass_if(~ identical(.result, (140/(140 + 100))), "La référence est l'ensemble des positifs, soit les vrais positifs, mais aussi les faux négatifs.")
+  pass_if(~ identical(.result, (140 / (140 + 100))),
+    "La référence est l'ensemble des positifs, soit les vrais positifs, mais aussi les faux négatifs.")
 )
 ```
 
-## La spécificité
+## Spécificité
 
 ```{r, echo=FALSE, message=FALSE}
 mconf <- dtf(
@@ -184,26 +180,26 @@ rownames(mconf) <- c("A", "B", "C")
 knitr::kable(mconf, caption = "Matrice de confusion dont les colonnes représentent la classification par ordinateur et les lignes la classification manuelle.")
 ```
 
-Sur base de cette matrice de confusion ci-dessus, calculez la **spécificité** du groupe A.
+Sur base de la matrice de confusion ci-dessus, calculez la **spécificité** du groupe A.
 
 ```{r conf3_h2, exercise = TRUE}
 tp <- ___
 fp <- ___
 fn <- ___
 tn <- ___
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+specif <- ___
+specif
 ```
 
 ```{r conf3_h2-hint-1}
 tp <- 90
 fp <- 50
 fn <- 0
 tn <- 300
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+specif <- ___
+specif
 ## Attention, le prochain indice est la solution ##
 ```
 
@@ -213,18 +209,19 @@ tp <- 90
 fp <- 50
 fn <- 0
 tn <- 300
-# calcul de la métrique
-conf <- tn / (tn + fp)
-conf
+# Calcul de la métrique
+specif <- tn / (tn + fp)
+specif
 ```
 
 ```{r conf3_h2-check}
 grade_result(
-  pass_if(~ identical(.result, (300/(300 + 50))), "À l'inverse ici, on considère comme référence l'ensemble des négatifs qui ne sont pas du groupe A, donc les vrais négatifs mais aussi les faux positifs.")
+  pass_if(~ identical(.result, (300 / (300 + 50))),
+    "À l'inverse ici, on considère comme référence l'ensemble des négatifs, donc ceux qui ne sont pas du groupe A, c'est-à-dire les vrais négatifs additionnés des faux positifs.")
 )
 ```
 
-## La précision
+## Précision
 
 ```{r, echo=FALSE, message=FALSE}
 mconf <- dtf(
@@ -242,19 +239,19 @@ tp <- ___
 fp <- ___
 fn <- ___
 tn <- ___
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+prec <- ___
+prec
 ```
 
 ```{r conf4_h2-hint-1}
 tp <- 10
 fp <- 150
 fn <- 30
 tn <- 260
-# calcul de la métrique
-conf <- ___
-conf
+# Calcul de la métrique
+prec <- ___
+prec
 ## Attention, le prochain indice est la solution ##
 ```
 
@@ -264,20 +261,21 @@ tp <- 10
 fp <- 150
 fn <- 30
 tn <- 260
-# calcul de la métrique
-conf <- tp / (tp + fp)
-conf
+# Calcul de la métrique
+prec <- tp / (tp + fp)
+prec
 ```
 
 ```{r conf4_h2-check}
 grade_result(
-  pass_if(~ identical(.result, (10/(10+150))), "Ne pas se tromper car cette fois la référence est l'ensemble des items classés par l'ordinateur comme B, soit les vrais et les faux positifs.")
+  pass_if(~ identical(.result, (10 / (10 + 150))),
+    "Ne pas se tromper car cette fois la référence est l'ensemble des items classés par l'ordinateur comme B, soit les vrais et les faux positifs.")
 )
 ```
 
 ## Conclusion
 
-Même si la réalisation de ces calculs de métrique peut vous sembler simpliste. Ils vous ont permis d'appréhender un peu mieux ces métriques qui sont des éléments cruciaux dans la mise en place d'un classifieur. À chaque fois que vous devrez étudier la qualité d'un classifieur, débuter par définir les métriques les plus pertinentes.
+Ces calculs de métriques à la main peut vous sembler simpliste. Ils vous ont permis d'appréhender un peu mieux ces métriques qui sont des éléments cruciaux dans l'évaluation d'un classifieur. À chaque fois que vous devrez étudier la qualité d'un classifieur, commencez par définir les métriques les plus pertinentes par rapport à vos objectifs.
 
 ```{r comm_noscore, echo=FALSE}
 question_text(