Cours

Les statistiques univariées en Python

FILIÈRE

Prépa Économique

MATIÈRE

Python

DATE

24 février 2024

AUTEUR

Rodrigue Le Donge

Major Prépa > Académique > Python > Les statistiques univariées en Python

Les statistiques univariées sont une composante importante de la CPGE ECG, puisqu’elles sont, par de nombreux aspects, liées aux probabilités, qui sont les reines de la prépa HEC. De plus, les statistiques sont très utiles dans le monde professionnel lorsqu’il s’agit pour un manager de tirer des tendances générales de certaines études de terrain. C’est en cela que les statistiques seront sûrement la partie la plus utile du programme de Maths CPGE une fois en école. Les statistiques univariées sont d’ailleurs de parfaits objets d’implémentation Python. Elles sont de ce fait une source intarissable d’imagination pour les concepteurs de sujets. Tu ne dois donc pas négliger cette partie du programme qui peut constituer une source de points aux concours, puisqu’elle est souvent oubliée par les préparationnaires. Nous verrons donc ici l’implémentation des statistiques univariées (qui dépend d’une seule variable) en Python.

La statistique univariée

Rappels mathématiques et de vocabulaire

Pour que ce qui va suivre soit clair, tu dois d’abord apprendre à maîtriser le vocabulaire propre à la statistique.

Soit \(n \in \mathbb{N*} \).

Tout d’abord, en mathématiques, on travaille avec des séries statistiques afin d’en tirer des observations. Si \(\mathcal{X}\) est une variable aléatoire représentant les données brutes, on a que le n-uplet \((x_1, x_2, … , x_n)\) est la série statistique brute obtenue à partir de la variable aléatoire \(\mathcal{X}\). On a bien sûr ici \(n\) qui est le nombre d’observations, et \(x_i\) qui vaut \(\mathcal{X(\omega_i)}\).

Un peu de vocabulaire et de calculs

– Modalité : on dit également des \(x_i\) que ce sont les modalités de \(\mathcal{X}\).
– Mode : on appelle « mode d’une série statistique » la modalité dont les effectifs sont les plus importants au sein de la série statistique.
– Effectif : on appelle « effectif de la modalité \(x_i\) » le nombre de valeurs qui valent \(x_i\).
– Série statistique dépouillée : on appelle « série statistique dépouillée » la série \(((x_1,n_1), (x_2,n_2), … , (x_p,n_p))\) avec \(x_i\) la modalité et \(n_i\) son effectif.
– Fréquence : on appelle « fréquence de la modalité \(x_i\) » le rapport \(f_i = \frac{n_i}{n}\), avec \(n\) le nombre total d’effectifs de notre série statistique.
– Effectif cumulé (croissant) de \(x_i\) : on appelle « effectif cumulé de la modalité \(x_i\) » l’addition du nombre d’effectifs associés à des modalités inférieures à \(x_i\) (traditionnellement au sens large, c’est-à-dire que l’effectif associé \(x_i\) est compris).
– Fréquence cumulée (croissante) de \(x_i\) : on appelle « fréquence cumulée de la modalité \(x_i\) » l’addition des fréquences associées à des modalités inférieures à \(x_i\) (traditionnellement au sens large, c’est-à-dire que la fréquence associée à \(x_i\) est comprise).

Ces définitions se transposent aisément dans le monde des « classes » lorsque l’on effectue un regroupement par classes.

Les commandes de base à connaître

Voici la liste des commandes très classiques qui existent concernant les statistiques univariées :

Comme tu peux le voir, il manque un certain nombre de choses dans ces commandes classiques pour pouvoir livrer une analyse statistique complète. C’est justement l’intérêt de la prochaine partie !

Les scripts classiques de la statistique univariée

Je vais maintenant te donner et t’expliquer quelques scripts classiques que tu dois connaître pour maîtriser la statistique univariée en Python.

Voilà, tu connais maintenant la plupart des scripts que les concepteurs de sujets pourront te demander de programmer. Ils sont indispensables pour aller sereinement aux concours tant ils sont classiques. Je t’invite donc à bien les comprendre pour pouvoir les reprogrammer de manière naturelle.

Les graphiques de la statistique univariée

Les graphiques en Python sont parfois confondus par les préparationnaires, notamment en Statistiques.

– Tout d’abord, le diagramme en bâtons est une représentation graphique visant à visualiser la distribution des fréquences de modalités discrètes à partir d’une série dépouillée \((x_1, n_1)…(x_p, n_p)\). Pour ce faire, on crée deux listes \(M\) et \(E\), respectivement, contenant les modalités et les effectifs.

– Ensuite, l’histogramme normalisé, adapté aux données continues regroupées en classes \([y_1, y_2[, …[y_q, y_{q+1}[\), se construit à partir d’une série brute \(A\) et des extrémités des classes \(C=[y_1, …y_{q+1}]\).

– Enfin, le diagramme des fréquences cumulées, adapté aux modalités d’une série statistique brute \(A\), peut être créé en générant les listes \(B\) (modalités) et \(D\) (fréquences cumulées). Il est aussi possible de créer des classes \([y_1, y_2[, …[y_q, y_{q+1}[\) pour remplacer la liste des modalités et de remplacer la liste des fréquences associées aux modalités par une liste de fréquences \(C=[y_1, …y_{q+1}]\) associés aux classes.

Voici ce que donnerait le code Python associé à ces différents diagrammes :

Tu l’auras compris : ce ne sont pas les commandes qui sont difficiles à assimiler. La réalisation est plutôt simple. Néanmoins, ce qu’il faut que tu retiennes, c’est l’argument qu’il faut mettre en entrée pour chaque type de graphiques, ainsi que le type de graphique adapté à ton exercice (selon le type de données : discrètes ou continues).

Conclusion

Pour conclure, tu as maintenant les clés nécessaires à l’analyse statistique univariée en Python. N’oublie pas que ce thème n’est pas négligeable pour les concours : il peut représenter beaucoup de points pour un investissement relativement limité.

Tu peux également retrouver nos autres articles de mathématiques ici.

Les statistiques univariées en Python

La statistique univariée

Rappels mathématiques et de vocabulaire

Un peu de vocabulaire et de calculs

Les commandes de base à connaître

Les scripts classiques de la statistique univariée

Les graphiques de la statistique univariée

Conclusion

À lire également

Pandas en pratique : l’outil clé de l’analyse de données

Simulation de la ruine du joueur : les marches aléatoires en Python

L’approximation de fonctions par polynômes orthogonaux en Python

Tout comprendre sur les listes et les tuples en Python

Abonne-toi à la newsletter Major Prépa !