PYTHON Tutorial

Datahantering

Python är ett kraftfullt programmeringsspråk för datahantering. Det finns många bibliotek som kan hjälpa dig att läsa in, manipulera, analysera och visualisera data.

Viktiga koncept

  • Pandas: Ett bibliotek för dataanalys och manipulation.
  • NumPy: Ett bibliotek för numerisk beräkning.
  • CSV: Ett filformat för att lagra data som en tabell.
  • JSON: Ett filformat för att lagra data som ett objekt.

Praktiska steg

Läs in data

Använd pandas för att läsa in data från CSV- eller JSON-filer, webbadresser eller databaser.

import pandas as pd

# Läs in data från en CSV-fil
df = pd.read_csv('data.csv')

# Läs in data från en JSON-fil
df = pd.read_json('data.json')
Manipulera data

Använd pandas för att manipulera data, som att sortera, filtrera, gruppera och sammanfatta.

# Sortera efter en kolumn
df.sort_values('age')

# Filtrera bort alla rader där åldern är större än 30
df[df['age'] > 30]

# Gruppera efter kön
df.groupby('gender')

# Beräkna medelvärdet för lönen grupperade efter kön
df.groupby('gender')['salary'].mean()
Analysera data

Använd NumPy för numeriska beräkningar och Pandas för statistisk analys.

# Beräkna medelvärdet, medianen och standardavvikelsen
df.mean()
df.median()
df.std()

# Beräkna kovariansen mellan ålder och lön
np.cov(df['age'], df['salary'])

# Rita ett histogram
df['age'].hist()
Spara data

Använd Pandas för att spara data till CSV- eller JSON-filer.

# Spara data till en CSV-fil
df.to_csv('data_out.csv')

# Spara data till en JSON-fil
df.to_json('data_out.json')