Les statistiques univariées sont une composante importante de la CPGE ECG, puisqu’elles sont, par de nombreux aspects, liées aux probabilités, qui sont les reines de la prépa HEC. De plus, les statistiques sont très utiles dans le monde professionnel lorsqu’il s’agit pour un manager de tirer des tendances générales de certaines études de terrain. C’est en cela que les statistiques seront sûrement la partie la plus utile du programme de Maths CPGE une fois en école. Les statistiques univariées sont d’ailleurs de parfaits objets d’implémentation Python. Elles sont de ce fait une source intarissable d’imagination pour les concepteurs de sujets. Tu ne dois donc pas négliger cette partie du programme qui peut constituer une source de points aux concours, puisqu’elle est souvent oubliée par les préparationnaires. Nous verrons donc ici l’implémentation des statistiques univariées (qui dépend d’une seule variable) en Python.
La statistique univariée
Rappels mathématiques et de vocabulaire
Pour que ce qui va suivre soit clair, tu dois d’abord apprendre à maîtriser le vocabulaire propre à la statistique.
Soit \(n \in \mathbb{N*} \).
Tout d’abord, en mathématiques, on travaille avec des séries statistiques afin d’en tirer des observations. Si \(\mathcal{X}\) est une variable aléatoire représentant les données brutes, on a que le n-uplet \((x_1, x_2, … , x_n)\) est la série statistique brute obtenue à partir de la variable aléatoire \(\mathcal{X}\). On a bien sûr ici \(n\) qui est le nombre d’observations, et \(x_i\) qui vaut \(\mathcal{X(\omega_i)}\).
Un peu de vocabulaire et de calculs
– Modalité : on dit également des \(x_i\) que ce sont les modalités de \(\mathcal{X}\).
– Mode : on appelle « mode d’une série statistique » la modalité dont les effectifs sont les plus importants au sein de la série statistique.
– Effectif : on appelle « effectif de la modalité \(x_i\) » le nombre de valeurs qui valent \(x_i\).
– Série statistique dépouillée : on appelle « série statistique dépouillée » la série \(((x_1,n_1), (x_2,n_2), … , (x_p,n_p))\) avec \(x_i\) la modalité et \(n_i\) son effectif.
– Fréquence : on appelle « fréquence de la modalité \(x_i\) » le rapport \(f_i = \frac{n_i}{n}\), avec \(n\) le nombre total d’effectifs de notre série statistique.
– Effectif cumulé (croissant) de \(x_i\) : on appelle « effectif cumulé de la modalité \(x_i\) » l’addition du nombre d’effectifs associés à des modalités inférieures à \(x_i\) (traditionnellement au sens large, c’est-à-dire que l’effectif associé \(x_i\) est compris).
– Fréquence cumulée (croissante) de \(x_i\) : on appelle « fréquence cumulée de la modalité \(x_i\) » l’addition des fréquences associées à des modalités inférieures à \(x_i\) (traditionnellement au sens large, c’est-à-dire que la fréquence associée à \(x_i\) est comprise).
Ces définitions se transposent aisément dans le monde des « classes » lorsque l’on effectue un regroupement par classes.
Les commandes de base à connaître
Voici la liste des commandes très classiques qui existent concernant les statistiques univariées :
Comme tu peux le voir, il manque un certain nombre de choses dans ces commandes classiques pour pouvoir livrer une analyse statistique complète. C’est justement l’intérêt de la prochaine partie !
Les scripts classiques de la statistique univariée
Je vais maintenant te donner et t’expliquer quelques scripts classiques que tu dois connaître pour maîtriser la statistique univariée en Python.
Voilà, tu connais maintenant la plupart des scripts que les concepteurs de sujets pourront te demander de programmer. Ils sont indispensables pour aller sereinement aux concours tant ils sont classiques. Je t’invite donc à bien les comprendre pour pouvoir les reprogrammer de manière naturelle.
Les graphiques de la statistique univariée
Les graphiques en Python sont parfois confondus par les préparationnaires, notamment en Statistiques.
– Tout d’abord, le diagramme en bâtons est une représentation graphique visant à visualiser la distribution des fréquences de modalités discrètes à partir d’une série dépouillée \((x_1, n_1)…(x_p, n_p)\). Pour ce faire, on crée deux listes \(M\) et \(E\), respectivement, contenant les modalités et les effectifs.
– Ensuite, l’histogramme normalisé, adapté aux données continues regroupées en classes \([y_1, y_2[, …[y_q, y_{q+1}[\), se construit à partir d’une série brute \(A\) et des extrémités des classes \(C=[y_1, …y_{q+1}]\).
– Enfin, le diagramme des fréquences cumulées, adapté aux modalités d’une série statistique brute \(A\), peut être créé en générant les listes \(B\) (modalités) et \(D\) (fréquences cumulées). Il est aussi possible de créer des classes \([y_1, y_2[, …[y_q, y_{q+1}[\) pour remplacer la liste des modalités et de remplacer la liste des fréquences associées aux modalités par une liste de fréquences \(C=[y_1, …y_{q+1}]\) associés aux classes.
Voici ce que donnerait le code Python associé à ces différents diagrammes :
Tu l’auras compris : ce ne sont pas les commandes qui sont difficiles à assimiler. La réalisation est plutôt simple. Néanmoins, ce qu’il faut que tu retiennes, c’est l’argument qu’il faut mettre en entrée pour chaque type de graphiques, ainsi que le type de graphique adapté à ton exercice (selon le type de données : discrètes ou continues).
Conclusion
Pour conclure, tu as maintenant les clés nécessaires à l’analyse statistique univariée en Python. N’oublie pas que ce thème n’est pas négligeable pour les concours : il peut représenter beaucoup de points pour un investissement relativement limité.
Tu peux également retrouver nos autres articles de mathématiques ici.