Pandas › Strcutures de base : Series et DataFrames
Comprenez les bases de Pandas avec les structures Series (1D) et DataFrames (2D), indispensables pour manipuler et analyser efficacement vos données en Python.
Series
Qu’est-ce qu’une Series ?
Une Série, ou en anglais « Series » (toujours avec un s, même au singulier) est une structure de données à une dimension.
Chaque valeur est associée à un index, ce qui permet d’accéder aux données facilement.
Comment créer une Series ?
Pour créer une série, on instancie la classe Series de Pandas sur une liste python.
import pandas as pd
pseudos = pd.Series(["Camille", "Milo", "Arthur", "Gaïa"])
print(pseudos)On obtient en sortie :
0 Camille
1 Milo
2 Arthur
3 Gaïa
dtype: strLes données sont indexées par défaut par des nombres entiers indiquant leur position.
dtypes fait référence au type de données de la Series (ici str).
Il est également possible de définir des index personnalisés pour les données. On parle de « label ».
pseudos = pd.Series(["Camille", "Milo", "Arthur", "Gaïa"], index=["id1", "id2", "id3", "id4"])
print(pseudos)On obtient en sortie :
id1 Camille
id2 Milo
id3 Arthur
id4 Gaïa
dtype: strDataFrame
Qu’est-ce qu’un DataFrame ?
Un DataFrame est une structure de données à deux dimensions.
C’est un tableau composé de lignes et de colonnes, où chaque colonne est une Series.
Comment créer un DataFrame ?
Pour créer un DataFrame, on instancie la classe DataFrame de Pandas sur un dictionnaire python.
df = pd.DataFrame({
"pseudo": ["Camille", "Milo", "Arthur", "Gaïa"],
"age": [25, 30, 22, 48],
})
print(df)- Les clés sont alors les noms des colonnes
- Les valeurs sont des listes de données On obtient en sortie :
pseudo age
0 Camille 25
1 Milo 30
2 Arthur 22
3 Gaïa 48Notez qu’il est également possible de créer un DataFrame à partir d’une liste de listes. Cette notation est à mon sens moins pertinente mais à le mérite d’exister ! 👇
df = pd.DataFrame([
["Camille", 25],
["Milo", 30],
["Arthur", 22],
["Gaïa", 48]
], columns=["pseudo", "age"])Chaque sous-liste est une ligne et il sera alors nécessaire de spécifier les noms des colonnes via le paramètre columns.
Différence entre Series et DataFrame
Voici un tableau récapitulant les principales différences entre Series et DataFrame :
| ↕️ Series | ↕️↔️ DataFrame |
|---|---|
| Une colonne | Un tableau complet (plusieurs colonnes/Series) |
| 1 dimension | 2 dimensions |
| Un seul type de données | Plusieurs types de données possibles |
| Index + valeurs (une seule colonne) | Index + colonnes + valeurs |
| Plus simple | Plus puissant et utilisé en pratique |
Comprendre ces structures est fondamental pour utiliser Pandas efficacement car c’est sous ce format que seront stockées les données que nous importerons (via des fichiers CSV, Excel, JSON, SQL…).