Quelques astuces simples mais utiles que vous ne connaissiez probablement nullement
Correctement que le moyen le plus simple de coder une table de frequences pour votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de une telle operation parai®t plutot basique. Nous pouvons le rendre plus informatif en ajustant des parametres booleens d’la technique normalize , sort , ascending , et dropna , ou en regroupant nos valeurs (si elles paraissent numeriques) dans des bacs. Cependant, les alternatives ici sont assez limitees, donc Afin de ameliorer visuellement la table de frequences resultante, nous pouvons envisager certains astuces simples mais indispensables, telles que le chainage de methodes, la personnalisation du post, l’ajout du % symbole a chaque valeur de frequence et l’utilisation d’la puissance de jolie- impression.
Dans ce billet, nous allons experimenter un ensemble de donnees Kaggle contenant des informations sur l’age, le sexe, l’emplacement, l’education, etc., Afin de 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour nos besoins, cependant, nous n’utiliserons que les informations i propos des statuts des utilisateurs.
1. Enchainement des methodes
Pour commencer, creons un tableau de frequence d’origine Afin de les statuts des utilisateurs :
( Note : ci-apres, nous allons laisser l’integralite des autres parametres d’une value_counts() methode via defaut, et cela signifie que nous ne considererons que les tableaux de frequences tries via ordre decroissant et en excluant les valeurs manquantes. Pour des besoins, utiliser ou non ces parametres ne peu importe.)
Sans connaitre le contexte, a partir du tableau ci-dessus, il peut ne point etre net que nos nombres representent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau avec le formatage f-string :
Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une option de contournement consiste a coder une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, puis a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :
Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour i§a, nous allons utiliser la to_markdown() technique pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).
Important : Afin de afficher convenablement les resultats, la to_markdown() technique devra etre utilisee seulement a l’interieur en print() achat.
Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et va avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. Prenons un exemple, le format de tableau que nous avons https://besthookupwebsites.org/fr/ldsplanet-review/ surpris plus bas s’appelle pipe , celui via defaut concernant nos to_markdown() pandas methode. Curieux que concernant le package tabulate lui-meme, le format de tableau via defaut reste simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des precisions de chaine avec defaut (qui reste left ). Les laternatives possibles ici sont right et center .
Attention : le floatfmt parametre ne fonctionne pas en combinaison avec le format du tableau pretty .
Plats a emporter pratiques
Bien que l’ensemble de la procedure gui?re a nullement ci-dessus ait necessite beaucoup de iterations et descriptions, nous trouverons ci-dessous nos solutions de code finales pour 4 versions differentes de notre tableau des frequences Afin de profiles[‘status’] , tout cela en % :
- 2 tableaux simples avec/sans le % symbole,
- 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.
Dans Ce texte, nous avons discute de divers approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont tous sa value_counts() technique des pandas comme accessoire central, mais tous vont au-dela et aboutissent a des representations plus percutantes. De plus, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.
J’espere que vous avez apprecie la lecture du article et que vous l’avez trouve utile. Merci d’avoir lu a tout un chacun, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????
Vous pouvez tomber sur interessant aussi ces articles :