Le misure di dispersione in statistica forniscono un’indicazione della variabilità o della diffusione dei dati all’interno di un insieme. In altre parole, mostrano quanto i dati si discostino dalla media o dal valore centrale. Queste misure sono fondamentali perché forniscono informazioni preziose sulla distribuzione e sulla consistenza dei dati, consentendo agli analisti di comprendere meglio la natura e le caratteristiche di un insieme di dati.
Le misure di dispersione
Immagina di avere un set di dati che rappresenta i voti di uno studente in un corso. La media di questi voti potrebbe darti un’idea generale del rendimento medio dello studente nel corso, ma le misure di dispersione ti aiutano a capire quanto questi voti possano variare intorno alla media. Se i voti sono molto dispersi, potrebbe indicare una varietà di fattori, come la differenza nella preparazione degli studenti, la qualità del corso o la soggettività del metodo di valutazione.
Le misure di dispersione in statistica sono utilizzate per capire quanto i dati di un insieme si discostino dal valore medio. Queste misure forniscono informazioni sulla variabilità dei dati. Alcune delle misure di dispersione più comuni includono:
Varianza e Deviazione Standard: Queste misure indicano quanto i dati siano dispersi intorno alla media. Valori più elevati indicano una maggiore dispersione, mentre valori più bassi indicano una maggiore coesione dei dati intorno alla media. Sono utili per valutare la precisione o l’affidabilità dei dati.
La Varianza (σ²) è calcolata come la media dei quadrati delle differenze tra ciascun valore (xi) e la media (μ) dell’insieme di dati (N):
Dove:
- sono i singoli valori nell’insieme di dati.
- è la media dell’insieme di dati.
- è il numero totale di valori nell’insieme di dati.
La Deviazione standard (σ) è semplicemente la radice quadrata della varianza:
Quindi:
Queste misure sono utili per valutare quanto i dati siano “sparsi” rispetto alla media, fornendo una misura della precisione o dell’affidabilità dei dati stessi. Ad esempio, se stiamo studiando il rendimento degli studenti in un esame, una deviazione standard elevata potrebbe indicare una maggiore variabilità nelle prestazioni degli studenti.
Intervallo: L’intervallo fornisce un’indicazione diretta della dispersione dei dati mostrando la distanza tra il valore massimo e il valore minimo nell’insieme di dati. È utile per ottenere una comprensione generale della distribuzione dei dati e per identificare rapidamente la gamma di valori all’interno della quale cadono i dati.
L’intervallo è la differenza tra il valore massimo (max) e il valore minimo (min) nell’insieme di dati:
È utile per ottenere una comprensione generale della distribuzione dei dati e per identificare rapidamente la gamma di valori all’interno della quale cadono i dati. Tuttavia, l’intervallo può essere influenzato da valori estremi o outliner.
Scarto Medio Assoluto (MAD): Lo scarto medio assoluto è una misura di dispersione che tiene conto della distanza media tra ciascun valore e la media. È meno sensibile agli outliner rispetto alla varianza, rendendolo una scelta migliore in alcune situazioni. È particolarmente utile quando si desidera una misura di dispersione che sia robusta ai dati estremi e che fornisca una stima della variabilità media dei dati.
Viene calcolato come la media delle differenze assolute tra ciascun valore e la media:
Lo scarto medio assoluto è una misura di dispersione che tiene conto della distanza media tra ciascun valore e la media. È meno sensibile agli outliner rispetto alla varianza, rendendolo una scelta migliore in alcune situazioni. È particolarmente utile quando si desidera una misura di dispersione che sia robusta ai dati estremi e che fornisca una stima della variabilità media dei dati.
Percentili: I percentili dividono i dati in parti ordinate. Sono utili per capire la distribuzione dei dati e per identificare valori estremi o outliner. Ad esempio, il 25° percentile indica il valore sotto il quale cade il 25% dei dati. I percentili sono spesso utilizzati per confrontare valori o individuare soglie di interesse all’interno di un insieme di dati.
In sintesi, le misure di dispersione sono fondamentali per comprendere la variabilità e la distribuzione dei dati. Aiutano gli analisti a ottenere una visione più completa e dettagliata dei dati, consentendo loro di fare previsioni più accurate, identificare tendenze e prendere decisioni informate.
Calcolo delle misure di dispersione con Python
Per calcolare le misure di dispersione appena viste attraverso il codice Python, si possono utilizzare le librerie NumPy e Statistics.
Varianza e Deviazione Standard:
import numpy as np
# Sample data
data = np.array([10, 20, 30, 40, 50])
# Calculating variance
variance = np.var(data)
# Calculating standard deviation
std_deviation = np.std(data)
print("Variance:", variance)
print("Standard Deviation:", std_deviation)
Eseguendo si ottiene:
Variance: 200.0
Standard Deviation: 14.142135623730951
Intervallo:
# Calculating range
range_value = np.max(data) - np.min(data)
print("Range:", range_value)
Eseguendo si ottiene:
Range: 40
Scarto Medio Assoluto (MAD):
import statistics
# Calculating mean absolute deviation
mad = statistics.mean([abs(x - np.mean(data)) for x in data])
print("Mean Absolute Deviation (MAD):", mad)
Eseguendo si ottiene:
Mean Absolute Deviation (MAD): 12.0
Percentili:
# Calculating percentiles
percentile_25 = np.percentile(data, 25)
percentile_50 = np.percentile(data, 50) # Median
percentile_75 = np.percentile(data, 75)
print("25th Percentile:", percentile_25)
print("Median (50th Percentile):", percentile_50)
print("75th Percentile:", percentile_75)
Eseguendo si ottiene:
25th Percentile: 20.0
Median (50th Percentile): 30.0
75th Percentile: 40.0