Pandas › Strcutures de base : Series et DataFrames

Comprenez les bases de Pandas avec les structures Series (1D) et DataFrames (2D), indispensables pour manipuler et analyser efficacement vos données en Python.

Icône de calendrier
Débutant
5 chapitres
Bannière publicitaire Hostinger

Series

Qu’est-ce qu’une Series ?

Une Série, ou en anglais « Series » (toujours avec un s, même au singulier) est une structure de données à une dimension.

Chaque valeur est associée à un index, ce qui permet d’accéder aux données facilement.

Comment créer une Series ?

Pour créer une série, on instancie la classe Series de Pandas sur une liste python.

copié !
import pandas as pd

pseudos = pd.Series(["Camille", "Milo", "Arthur", "Gaïa"])
print(pseudos)

On obtient en sortie :

0    Camille
1    Milo
2    Arthur
3    Gaïa
dtype: str

Les données sont indexées par défaut par des nombres entiers indiquant leur position. dtypes fait référence au type de données de la Series (ici str).

Il est également possible de définir des index personnalisés pour les données. On parle de « label ».

copié !
pseudos = pd.Series(["Camille", "Milo", "Arthur", "Gaïa"], index=["id1", "id2", "id3", "id4"])
print(pseudos)

On obtient en sortie :

id1    Camille
id2    Milo
id3    Arthur
id4    Gaïa
dtype: str

DataFrame

Qu’est-ce qu’un DataFrame ?

Un DataFrame est une structure de données à deux dimensions.

C’est un tableau composé de lignes et de colonnes, où chaque colonne est une Series.

Comment créer un DataFrame ?

Pour créer un DataFrame, on instancie la classe DataFrame de Pandas sur un dictionnaire python.

copié !
df = pd.DataFrame({
    "pseudo": ["Camille", "Milo", "Arthur", "Gaïa"],
    "age": [25, 30, 22, 48],
})
print(df)
  • Les clés sont alors les noms des colonnes
  • Les valeurs sont des listes de données On obtient en sortie :
    pseudo  age
0  Camille   25
1     Milo   30
2   Arthur   22
3     Gaïa   48

Notez qu’il est également possible de créer un DataFrame à partir d’une liste de listes. Cette notation est à mon sens moins pertinente mais à le mérite d’exister ! 👇

copié !
df = pd.DataFrame([
    ["Camille", 25],
    ["Milo", 30],
    ["Arthur", 22],
    ["Gaïa", 48]
], columns=["pseudo", "age"])

Chaque sous-liste est une ligne et il sera alors nécessaire de spécifier les noms des colonnes via le paramètre columns.

Différence entre Series et DataFrame

Voici un tableau récapitulant les principales différences entre Series et DataFrame :

↕️ Series↕️↔️ DataFrame
Une colonneUn tableau complet (plusieurs colonnes/Series)
1 dimension2 dimensions
Un seul type de donnéesPlusieurs types de données possibles
Index + valeurs (une seule colonne)Index + colonnes + valeurs
Plus simplePlus puissant et utilisé en pratique

Comprendre ces structures est fondamental pour utiliser Pandas efficacement car c’est sous ce format que seront stockées les données que nous importerons (via des fichiers CSV, Excel, JSON, SQL…).