Bien qu’étant à la limite du programme (non enseigné dans beaucoup de prépas HEC), le module Pandas de Python est déjà tombé aux concours, à l’occasion de l’épreuve maîtresse : HEC 2023. Voyons donc d’abord les différentes commandes que tu dois maîtriser, puis un exemple concret reprenant tout ce qu’on aura vu. Ne t’inquiète pas si tu trouves qu’il y a beaucoup de commandes complexes en premier lieu, tout sera expliqué en détail avec l’exemple. Je t’invite d’ailleurs à faire des allers-retours entre les commandes et l’exemple pour bien t’imprégner du module Pandas.
Cet article ne concerne que les maths appliquées ou alors les maths approfondies qui souhaitent faire du hors programme de Python.
Qu’est-ce que Pandas ?
Pandas est une librairie Python qui permet de manipuler facilement des données à analyser. Pandas permet de manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d’individus (lignes).
Ces tableaux sont appelés DataFrames, et on peut facilement lire et écrire ces DataFrames à partir d’un fichier tabulé ou vers ce dernier. On peut également facilement tracer des graphes à partir de ces DataFrames grâce à Matplotlib.
La gestion de données par Pandas
Structure de données et fichiers CSV
Il est déjà important que tu comprennes la structure sous laquelle Pandas va pouvoir exploiter les données. Lorsque tu vas vouloir écrire un tableau, tu auras besoin d’un vocabulaire précis, propre au module Pandas.
Pandas va te permettre de lire et de modifier des tableaux (DataFrames) qui sont au format CSV, pour Comma-Separated Values (valeurs séparées par des virgules). Ce genre de fichier est couramment utilisé pour remplir des tableaux Excel ou des Google Spreadsheets.
Chaque colonne de ton DataFrame sera appelée « descripteur ». C’est une information sur la donnée, qui dicte en général « de quoi on parle ».
Chaque ligne de ton DataFrame sera appelée « individu ». C’est la donnée elle-même, qui pourra aussi bien être une chaîne de caractères qu’une donnée numérique.
Voici un exemple concret :
Ici, les descripteurs sont Nom, Prénom et Lieu, et les individus sont les lignes et nous fournissent de la donnée.
Comment se servir réellement de Pandas ?
Pour commencer, il te faudra toujours importer le module Pandas, puis souvent importer une base de données déjà construite. Attention, avant de pouvoir importer directement Pandas, il faut l’installer sur ton ordinateur en tapant « pip install pandas » dans le Shell de ton éditeur de code.
Manipulations élémentaires d’une base de données
Tu sais maintenant comment importer une base de données (BDD). Il te faut désormais comprendre comment renvoyer des informations à partir de cette base de données.
Voici les commandes de manipulations élémentaires d’une base de données :
Filtrage de données et analyse des données numériques
Je t’ai donné les commandes de manipulations élémentaires d’une base de données, qui servent à renvoyer certaines parties de ta base de données. Il est maintenant temps de filtrer ces données numériquement et d’en donner une analyse.
Voici ce dont tu auras besoin :
Tri des données numériques
J’en ai presque fini avec les commandes barbares ! Il ne te reste maintenant plus qu’à comprendre comment tu peux trier les données de ta base de données.
Tu auras besoin des commandes suivantes :
L’exemple général
Passons à un exemple qui va reprendre plus ou moins tout ce que je t’ai dit jusqu’à maintenant. Je te laisse faire des allers-retours entre les différentes parties de ce « cours » et les différentes parties du script de mon exemple.
L’exemple portera sur une base de données venant de Yahoo Finance, qui répertorie l’évolution d’un titre financier au cours du temps.
Tu peux importer cette base de données en la téléchargeant directement. Pour cela, clique ici. Pour avoir accès à l’exemple complet reprenant tout ce que je t’ai montré, clique ici.
Tu peux alterner entre le code (bouton Stylo) et son exécution (bouton Play). Je te laisse copier-coller dans ton éditeur Python si tu souhaites modifier le code pour tester des choses.
Conclusion
Tu l’auras compris, la syntaxe de Pandas et son mode de fonctionnement peuvent intimider au début mais, au final, après seulement quelques heures de pratique, tu maîtriseras ce module sur le bout des doigts, et aucun sujet de concours ne pourra te déstabiliser là-dessus. Il est important que tu t’entraînes sur une autre base de données, tu peux en trouver plein sur Internet !
Enfin, tu peux également retrouver toutes nos autres ressources mathématiques ici.