You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: inst/tutorials/B07La_pca/B07La_pca.Rmd
+24-24Lines changed: 24 additions & 24 deletions
Original file line number
Diff line number
Diff line change
@@ -13,11 +13,11 @@ runtime: shiny_prerendered
13
13
14
14
```{r setup, include=FALSE}
15
15
BioDataScience2::learnr_setup()
16
-
SciViews::R("explore")
16
+
SciViews::R("explore", lang = "fr")
17
17
18
-
# Preparation of the dataset ------
18
+
# Preparation du jeu de données
19
19
read("penguins", package = "palmerpenguins", lang = "fr") %>.%
20
-
sdrop_na(., bill_length_mm) %->%
20
+
sdrop_na(., bill_length) ->
21
21
penguins
22
22
```
23
23
@@ -37,28 +37,28 @@ L'Analyse en Composantes Principales (ACP) est une méthode statistique explorat
37
37
38
38
- Réaliser de manière guidée une ACP
39
39
40
-
- Effectuer les graphiques associées à cette analyse
40
+
- Effectuer les graphiques relatifs à cette analyse
41
41
42
42
- Vous préparer à interpréter par vous-même les résultats de vos ACP
43
43
44
-
Avant toute chose, assurezvous d'avoir bien compris le contenu du [module 7](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2022/acp-afc.html) du cours et en particulier la [section 7.1](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2022/analyse-en-composantes-principales.html).
44
+
Avant toute chose, assurez-vous d'avoir bien compris le contenu du [module 7](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2023/acp-afc.html) du cours et en particulier la [section 7.1](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2023/analyse-en-composantes-principales.html).
45
45
46
-
## Manchots de l'Antarctique
46
+
## Manchots en Antarctique
47
47
48
-
Trois espèces de manchots ont été étudié en Antarctique entre 2007 et 2009 par le Docteur Kristen Gorman de la base antarctique Palmer. Les manchots ont été étudié sur l'île du Rêve (`Dream`), sur l'île de Torgersen (`Torgersen`) et sur île Biscoe (`Biscoe`). Les espèces étudiées sont le manchot Papou *Pygoscelis papua* (Forster, 1781), `Gentoo`, le manchot Adélie *Pygoscelis adlidae* (Hombron & Jacquinot, 1841), `Adelie` et les manchots à jugulaire *Pygoscelis antarcticus* (Forster, 1781), `Chinstrap`.
48
+
Trois espèces de manchots ont été étudiés en Antarctique entre 2007 et 2009 par le Docteur Kristen Gorman de la base antarctique Palmer. Les manchots ont été observés sur l'île du Rêve (`Dream`), sur l'île de Torgersen (`Torgersen`) et sur l'île Biscoe (`Biscoe`). Les espèces étudiées sont le manchot Papou *Pygoscelis papua* (Forster, 1781) `Gentoo`, le manchot Adélie *Pygoscelis adlidae* (Hombron & Jacquinot, 1841) `Adelie` et le manchot à jugulaire *Pygoscelis antarcticus* (Forster, 1781) `Chinstrap`.
49
49
50
-

50
+

Le jeu de données nommé `penguins` ici contient trois variables facteurs : l'espèce, l'île doù les individus proviennent et leur sexe. Il contient aussi quatre variables biométriques : la longueur du bec (mm), la largeur du bec (mm), la longueur de la nageoire (mm) et la masse (g). Les années de mesures sont recensées dans la variable `year`.
57
+
Le jeu de données nommé `penguins` ici contient trois variables facteurs : l'espèce, l'île d'où les individus proviennent et leur sexe. Il contient aussi quatre variables biométriques : la longueur du bec (mm), la largeur du bec (mm), la longueur de la nageoire (mm) et la masse (g). Les années des mesures sont enregistrées dans la variable `year`.
58
58
59
59
```{r, echo=TRUE}
60
60
naniar::vis_miss(penguins) # Visualiser les données manquantes
61
-
penguins <- sdrop_na(penguins, bill_length_mm) # Éliminer les lignes vides
61
+
penguins <- sdrop_na(penguins, bill_length) # Éliminer les lignes vides
62
62
```
63
63
64
64
La variable sexe a quelques valeurs manquantes, mais comme elle ne sera pas utilisée dans cette analyse (l'ACP utilise en effet des variables quantitatives uniquement), nous n'éliminons **pas** les lignes qui contiennent des valeurs manquantes pour cette variable. Nous ne supprimons que les valeurs manquantes observées pour `bill_length_mm`.
@@ -89,14 +89,14 @@ plot(peng_corr)
89
89
grade_code("Par défaut, la fonction correlation() utilise la méthode de Pearson qui met en avant les corrélations linéaires, celles précisément qui nous intéressent pour l'ACP. Nous observons des corrélations positives en bleu entre la longueur du bec, de la nageoire et la masse. Par contre, la largeur du bec est inversément corrélée à ces trois autres variables.")
90
90
```
91
91
92
-
### Linearisation éventuelle
92
+
### Linéarisation éventuelle
93
93
94
94
Avant de réaliser une ACP, on vérifie aussi si les relations entre les variables sont linéaires ou à peu près linéaires. Cela se voit sur un graphique en nuage de points. Nous pouvons réaliser des graphiques entre différentes paires de variables ou alors utiliser une matrice de nuage de points.
95
95
96
96
Avec des données biométriques, le nuage de points a fréquemment une forme curvilinéaire qui se linéarise par une transformation en double logarithme (logarithme des deux variables), comme pour le jeu de données `urchins` par exemple. **Si vous observez cela, une linéarisation par transformation des données est à appliquer avant d'effectuer l'ACP.**
Calculez maintenant votre analyse en composantes principales sur le jeu de données `penguins`. Sélectionnez uniquement les variables numériques intéressantes. L'année de la mesure n'est pas une variable intéressante pour réaliser l'ACP. Les variables biométriques ont des unités différentes. Il est donc plus judicieux de standardiser les valeurs.
112
+
Calculez maintenant votre analyse en composantes principales sur le jeu de données `penguins`. Sélectionnez uniquement les variables numériques intéressantes. L'année de la mesure n'est pas une variable intéressante pour réaliser l'ACP. Les variables biométriques ont des unités différentes. Il est donc judicieux de standardiser les données.
113
113
114
114
```{r pca_h2, exercise=TRUE, exercise.lines=6}
115
115
___ %>.%
116
116
sselect(., ___:___) %>.%
117
-
pca(., scale = ___) %->%
117
+
pca(., scale = ___) ->
118
118
penguins_pca
119
119
summary(penguins_pca)
120
120
```
121
121
122
122
```{r pca_h2-hint-1}
123
123
___ %>.%
124
124
sselect(., ___:___) %>.%
125
-
pca(., scale = TRUE) %->%
125
+
pca(., scale = TRUE) ->
126
126
penguins_pca
127
127
summary(penguins_pca)
128
128
@@ -133,7 +133,7 @@ summary(penguins_pca)
133
133
## Solution ##
134
134
penguins %>.%
135
135
sselect(., 3:6) %>.%
136
-
pca(., scale = TRUE) %->%
136
+
pca(., scale = TRUE) ->
137
137
penguins_pca
138
138
summary(penguins_pca)
139
139
```
@@ -148,7 +148,7 @@ question("Quelle est la proportion cumulée de la variance des deux premières c
148
148
answer("0.19"),
149
149
answer("0.88", correct = TRUE),
150
150
allow_retry = TRUE,
151
-
correct = "C'est exact ! La variance cumulée des deux premiers axes correspond à 88%. Ces deux premiers axes forment donc un plan qui représente bien l'information du jeu de données. La première composante contient déjà plus de 69% de la variance.",
151
+
correct = "La variance cumulée sur les deux premiers axes correspond à 88%. Ces deux premiers axes forment donc un plan qui représente bien l'information du jeu de données. La première composante contient déjà plus de 69% de la variance.",
152
152
incorrect = "La proportion de la variance et la proportion de la variance cumulée se trouve dans le tableau `Importance of components`."
153
153
)
154
154
```
@@ -160,7 +160,7 @@ Réalisez un graphique des éboulis sur l'objet `penguins_pca` que vous avez ré
160
160
```{r pca_prep}
161
161
penguins %>.%
162
162
sselect(., 3:6) %>.%
163
-
pca(., scale = TRUE) %->%
163
+
pca(., scale = TRUE) ->
164
164
penguins_pca
165
165
```
166
166
@@ -180,7 +180,7 @@ chart$scree(penguins_pca)
180
180
```
181
181
182
182
```{r scree_h2-check}
183
-
grade_code("Vous venez de réaliser le graphique des éboulis associé à votre ACP. Ce graphique permet de voir la part de variance exprimée par chaque composante principale. Nous voyons bien que le premier axe reprend une très grande part de variance et que l'ensemble des deux premiers axes en cumulent une part suffisante.")
183
+
grade_code("Le graphique des éboulis permet de voir la part de variance exprimée par chaque composante principale. Nous voyons bien que le premier axe reprend une très grande part de variance et que l'ensemble des deux premiers axes en cumulent une part suffisante.")
grade_code("Ce graphique permet de visualiser l'importance des variables intiales dans le plan de l'ACP sous forme de vecteurs. Il est indispensable pour interpréter le graphique suivant qui répartit les observations dans le même plan. La norme (longueur) du vecteur indique si la variable est bien représentée dans ce plan ou non. Plus la norme du vecteur se rapproche de un, matérialisé par le cercle, mieux c'est. Ici, les 4 variables sont bien représentées avec des normes supérieures ou égales à 0.5. Celles aux normes trop faibles ne sont pas considérées dans l'analyse pour ce plan-là en tous cas. Ensuite, les variables qui pointent dans la même direction sont corrélées positivement comme la longueur de la nageoire et la masse. Les variables qui pointent dans le sens opposé sont inversément corrélées (il n'y en a pas ici). Les vecteurs orthogonaux correspondent à des variables non ou très faiblement corrélées entre elles, comme la largeur du bec et la masse.")
206
+
grade_code("Ce graphique permet de visualiser l'importance des variables intiales dans le plan de l'ACP sous forme de vecteurs. Il est indispensable pour interpréter le graphique suivant qui répartit les observations dans le même plan. La norme (longueur) du vecteur indique si la variable est bien représentée dans ce plan ou non. Plus la norme du vecteur se rapproche de un, matérialisé par le cercle gris, mieux c'est. Ici, les quatre variables sont bien représentées avec des normes supérieures ou égales à 0.5. Celles aux normes trop faibles ne sont pas considérées dans l'analyse pour ce plan-là en tous cas. Ensuite, les variables qui pointent dans la même direction sont corrélées positivement comme la longueur de la nageoire et la masse. Les variables qui pointent dans le sens opposé sont inversément corrélées (il n'y en a pas ici). Les vecteurs orthogonaux correspondent à des variables non ou très faiblement corrélées entre elles, comme la largeur du bec et la masse.")
grade_code("La forme du nuage de points et surtout des sous-groupes sont à rechercher ici. Nous voyons clairement une séparation des manchots `Gentoo` par rapport aux autres. Ce graphique peut s'interpréter par rapport au précédent qui proposait une clé de lecture. Les manchots `Chinstrap` ont des becs plus long que les manchots `Adelie` (partie basse du graphique). Les manchots `Gentoo` sont plus gros que les manchots `Adelie` et `Chinstrap` et ont des nageoires plus longues (droite du graphique).")
232
+
grade_code("La forme du nuage de points et surtout des sous-groupes sont à rechercher ici. Nous voyons clairement une séparation des manchots `Gentoo` par rapport aux autres. Ce graphique peut s'interpréter par rapport au précédent qui offre une clé de lecture. Les manchots `Chinstrap` ont des becs plus long que les manchots `Adelie` (partie basse du graphique). Les manchots `Gentoo` sont plus gros que les manchots `Adelie` et `Chinstrap` et ont des nageoires plus longues (droite du graphique).")
233
233
```
234
234
235
235
## Interprétation de l'ACP
@@ -238,12 +238,12 @@ Voici les deux représentations dans l'espace des variables et des individus dan
238
238
239
239
```{r}
240
240
read("penguins", package = "palmerpenguins", lang = "fr") %>.%
241
-
sdrop_na(., bill_length_mm) %->%
241
+
sdrop_na(., bill_length) ->
242
242
penguins
243
243
244
244
penguins %>.%
245
245
sselect(., 3:6) %>.%
246
-
pca(., scale = TRUE) %->%
246
+
pca(., scale = TRUE) ->
247
247
penguins_pca
248
248
249
249
a <- chart$loadings(penguins_pca, choices = c(1, 2))
Le premier axe reprend 69% de la variance totale et ce sont les variables masse et longueur de nageoire qui sont les plus corrélées à cet axe avec les valeurs élevées pointant vers la droite des graphiques. En y projetant les individus, deux sous-groupes s'individualisent principalement selon ce premier axe. Ainsi, les manchots papous (gentoo) sont plus gros et ont de plus longues nageoires que les deux autres espèces.
255
+
Le premier axe reprend 69% de la variance totale et ce sont les variables masse et longueur de nageoire qui sont les plus corrélées à cet axe avec les valeurs élevées pointant vers la droite des graphiques. En y projetant les individus, deux sous-groupes se séparent principalement selon ce premier axe. Ainsi, les manchots papous (gentoo) sont plus gros et ont de plus longues nageoires que les deux autres espèces.
256
256
257
257
Le second axe ne représente que 19% de la variance. Il est plutôt associé à la longueur et largeur du bec, avec des valeurs plus élevées dans le bas des graphiques. Les manchots adélies et à jugulaires (chinstrap) se différencient, quoique incomplètement, par cette longueur de bec plus importante chez chinstrap.
Copy file name to clipboardExpand all lines: inst/tutorials/B07Lb_ca/B07Lb_ca.Rmd
+9-5Lines changed: 9 additions & 5 deletions
Original file line number
Diff line number
Diff line change
@@ -14,7 +14,7 @@ runtime: shiny_prerendered
14
14
15
15
```{r setup, include=FALSE}
16
16
BioDataScience2::learnr_setup()
17
-
SciViews::R("explore")
17
+
SciViews::R("explore", lang = "fr")
18
18
19
19
# caith -----
20
20
caith <- read("caith", package = "MASS")
@@ -42,7 +42,7 @@ L'Analyse Factorielle des Correspondances (AFC) est une variante de l'Analyse en
42
42
43
43
- Vous préparer à interpréter par vous-même les résultats de vos AFC
44
44
45
-
Avant toute chose, assurez-vous d'avoir bien compris le contenu du [module 7](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2022/acp-afc.html) du cours et en particulier la [section 7.3](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2022/analyse-factorielle-des-correspondances.html).
45
+
Avant toute chose, assurez-vous d'avoir bien compris le contenu du [module 7](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2023/acp-afc.html) du cours et en particulier la [section 7.3](https://wp.sciviews.org/sdd-umons2/?iframe=wp.sciviews.org/sdd-umons2-2023/analyse-factorielle-des-correspondances.html).
46
46
47
47
## Couleur des yeux et des cheveux
48
48
@@ -74,16 +74,17 @@ caith_df
74
74
```
75
75
76
76
```{r dtf-solution}
77
+
## Solution ##
77
78
caith_df <- as_dtf(caith)
78
79
# Afficher le tableau
79
80
caith_df
80
81
```
81
82
82
83
```{r dtf-check}
83
-
grade_code("La conversion du tableau en `data.frames` est simple avec la fonction `as_dtf()`. Par defaut, la fonction reconnait la colonne `.rownames` et la converti en nom de lignes. Si la colonne à transformer en nom des lignes porte un autre nom que `.rownames`, alors vous pouvez utiliser l'argument `rownames =` pour indiquer quelle colonne utiliser.")
84
+
grade_code("La conversion du tableau en `data.frame` est simple avec la fonction `as_dtf()`. Par defaut, la fonction reconnait la colonne `.rownames` et la converti en nom de lignes. Si la colonne à transformer en nom des lignes porte un autre nom que `.rownames`, alors vous pouvez utiliser l'argument `rownames =` pour indiquer quelle colonne utiliser.")
84
85
```
85
86
86
-
## Réalisation de l'ACF
87
+
## Réalisation de l'AFC
87
88
88
89
Réalisez à présent une analyse factorielle des correspondances sur l'objet `caith_df` et nommez-la `caith_ca`. Réalisez ensuite le résumé de ce dernier objet.
89
90
@@ -102,6 +103,7 @@ ___(caith_ca)
102
103
```
103
104
104
105
```{r ca_h2-solution}
106
+
## Solution ##
105
107
# AFC
106
108
caith_ca <- ca(caith_df)
107
109
# Résumé de l'objet
@@ -112,13 +114,14 @@ summary(caith_ca)
112
114
grade_code("Le code est simple. Le résumé de l'objet met en avant qu'avec les deux premiers axes on couvre 99.6% de la variance. Le premier axe couvre déjà plus de 86%. L'essentiel de l'information se lira donc dans le premier plan de projection.")
113
115
```
114
116
115
-
Réalisez le graphique des éboulis de votre analyse.
0 commit comments