Misure di Dispersione di una Distribuzione in Python

Misure di dispersione di una distribuzione head

Calcolare le misure di dispersione, come la deviazione standard e l’IQR, è cruciale per valutare la variabilità dei dati intorno alla loro tendenza centrale. Queste misure forniscono informazioni fondamentali sulla distribuzione, permettendo di identificare outlier, confrontare distribuzioni e prendere decisioni informate. La comprensione della variabilità è essenziale per il controllo di processo, la costruzione di modelli statistici accurati e il supporto a previsioni e decisioni in diversi contesti.

[wpda_org_chart tree_id=8 theme_id=50]

Le Misure di Dispersione

Le misure di dispersione sono utilizzate per valutare quanto i dati si discostano dalla tendenza centrale di una distribuzione. Queste misure forniscono informazioni sulla variabilità dei dati e sulla loro distribuzione attorno a un valore centrale. Alcune delle misure di dispersione più comuni includono:

Deviazione Media Assoluta:

\text{Media Assoluta delle Deviazioni} = \frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}|

Misura la media delle deviazioni assolute di ciascun dato dalla media aritmetica.

Varianza:

\text{Varianza} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

Rappresenta la media delle deviazioni quadrate dei dati dalla media aritmetica.

Deviazione Standard:

\text{Deviazione Standard} = \sqrt{\text{Varianza}}

È la radice quadrata della varianza e rappresenta la dispersione media dei dati dalla media.

Deviazione Media Assoluta dalla Mediana (MAD):

\text{MAD} = \text{Mediana}(|x_i - \text{Mediana}|)

Misura la deviazione assoluta media dei dati rispetto alla mediana.

Raggio Interquartile (IQR):

\text{IQR} = Q_3 - Q_1

Rappresenta la differenza tra il terzo quartile (Q3) e il primo quartile (Q1) ed è resistente agli outlier.

Le misure di dispersione forniscono una comprensione dettagliata della variabilità all’interno di un insieme di dati. La deviazione standard è particolarmente utile perché è espressa nelle stesse unità dei dati e facilita il confronto tra distribuzioni con scale diverse. L’IQR è spesso preferito quando la distribuzione contiene outlier, in quanto è meno influenzato da valori estremi rispetto alla deviazione standard.

In generale, la scelta della misura di dispersione dipende dalle caratteristiche specifiche dei dati e degli obiettivi dell’analisi statistica.

Esempio di calcolo delle misure di dispersione in Python

Di seguito trovi degli esempi in Python per calcolare le misure di dispersione menzionate. Per esemplificare, useremo un set di dati di esempio.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import iqr

# Dati di esempio
data = np.array([10, 15, 18, 22, 25, 30, 35, 40, 50])

# Calcoliamo le misure di dispersione
mean_deviation = np.mean(np.abs(data - np.mean(data)))
variance = np.var(data)
std_deviation = np.std(data)
mad = np.median(np.abs(data - np.median(data)))
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr_value = q3 - q1

# Creiamo un boxplot per visualizzare IQR
plt.figure(figsize=(8, 6))
plt.boxplot(data, vert=False)
plt.title('Boxplot con IQR')
plt.xlabel('Valori')
plt.show()

# Creiamo un istogramma per visualizzare la distribuzione
plt.figure(figsize=(8, 6))
plt.hist(data, bins='auto', color='blue', alpha=0.7, rwidth=0.85)
plt.title('Istogramma della Distribuzione')
plt.xlabel('Valori')
plt.ylabel('Frequenza')
plt.show()

# Stampa delle misure di dispersione
print("Deviazione Media Assoluta:", mean_deviation)
print("Varianza:", variance)
print("Deviazione Standard:", std_deviation)
print("Deviazione Media Assoluta dalla Mediana (MAD):", mad)
print("Raggio Interquartile (IQR):", iqr_value)

Questo codice utilizza la libreria NumPy per calcolare le statistiche di base e la funzione iqr di SciPy per calcolare l’IQR.

Misure di dispersione fig 1
Misure di dispersione fig 2
Deviazione Media Assoluta: 10.246913580246915
Varianza: 145.95061728395063
Deviazione Standard: 12.08100232944066
Deviazione Media Assoluta dalla Mediana (MAD): 10.0
Raggio Interquartile (IQR): 17.0

Ricorda che questi sono solo esempi di calcolo delle misure di dispersione. Nella pratica, puoi applicare queste misure a set di dati reali per valutare la variabilità e la distribuzione dei tuoi dati.

Libro consigliato:

Se ti piace quest’argomento, ti consiglio questo libro:

Fondamenti di Statistica per Data Scientists

L’importanza di calcolare le misure di dispersione di una distribuzione

Calcolare le misure di dispersione di una distribuzione è fondamentale per ottenere una comprensione completa della variabilità dei dati. Queste misure forniscono informazioni preziose sulla distribuzione dei dati intorno alla loro tendenza centrale e sono utili in diversi contesti. Di seguito sono alcune delle ragioni per cui calcolare le misure di dispersione è importante:

Valutazione della Variabilità: Le misure di dispersione, come la deviazione standard e la varianza, forniscono una quantificazione numerica della variabilità dei dati. Questo aiuta a capire quanto i dati si discostano dalla media, indicando la stabilità o la dispersione delle osservazioni.

Comparazione tra Distribuzioni: Confrontare le misure di dispersione tra diverse distribuzioni permette di determinare quale distribuzione ha una maggiore o minore variabilità. Questo è essenziale per valutare la coerenza o la diversità di diverse serie di dati.

Identificazione degli Outlier: Le misure di dispersione, specialmente l’IQR, sono utili per identificare valori anomali o outlier. Outlier possono influenzare significativamente le analisi statistiche e la comprensione complessiva dei dati.

Previsione e Decisioni Informate: Comprendere la variabilità dei dati è fondamentale per fare previsioni e prendere decisioni informate. Ad esempio, una maggiore variabilità può implicare una maggiore incertezza nelle previsioni.

Stabilità dei Modelli Statistici: Nella costruzione e nell’uso di modelli statistici, è essenziale conoscere la variabilità dei dati. Modelli che assumono dati con bassa variabilità possono non adattarsi bene a dati con alta variabilità, e viceversa.

Validità degli Indicatori di Tendenza Centrale: La deviazione standard è spesso utilizzata per valutare la precisione di statistiche di tendenza centrale, come la media. Se la deviazione standard è elevata, la media può essere meno rappresentativa della distribuzione.

Controllo di Processo e Qualità: Nelle applicazioni industriali, misurare la variabilità è fondamentale per il controllo di processo e la gestione della qualità. Una variazione eccessiva può indicare problemi nei processi produttivi.

Sensibilità alle Variazioni: Conoscere la variabilità dei dati è cruciale in settori come l’economia e le finanze, dove le fluttuazioni possono influenzare significativamente le decisioni finanziarie.

In sintesi, calcolare le misure di dispersione è cruciale per ottenere una visione completa della distribuzione dei dati e per fare previsioni accurate, prendere decisioni informate e garantire la validità delle analisi statistiche.

Lascia un commento