Misure di Centralità di una Distribuzione con Python

Misure della centralità di una distribuzione head

Le misure di centralità, come la media, mediana e moda, identificano il valore tipico di un set di dati, fornendo un punto di riferimento per la comprensione della distribuzione. Queste misure lavorano sinergicamente con le misure di dispersione, come la deviazione standard e l’IQR, per quantificare la variabilità attorno al valore centrale. Considerare entrambi questi aspetti offre una prospettiva completa della distribuzione, essenziale per modelli statistici, decisioni informate e la descrizione accurata dei dati.

[wpda_org_chart tree_id=8 theme_id=50]

Misure di Centralità di una Distribuzione

Le misure di centralità sono utilizzate per identificare il punto centrale o tipico di una distribuzione di dati. Queste misure forniscono informazioni sul valore centrale attorno al quale gli altri dati si raggruppano. Alcune delle misure di centralità più comuni includono:

Media Aritmetica:

\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

La media aritmetica è la somma di tutti i valori divisa per il numero di osservazioni. È influenzata da tutti i valori e può essere sensibile agli outlier.

Mediana:

Calcolo: Ordina i dati e seleziona il valore che divide la distribuzione in due parti uguali.

La mediana è il valore centrale di un insieme di dati ordinato. È meno sensibile agli outlier rispetto alla media e offre una misura di tendenza centrale robusta.

Moda:

Calcolo: Il valore o i valori più frequenti nella distribuzione.

La moda è il valore più frequente in un set di dati. Una distribuzione può avere una moda (unimodale) o più di una moda (multimodale).

Media Geometrica:

M_G = \left(\prod_{i=1}^{n} x_i\right)^{\frac{1}{n}}

La media geometrica è utile per dati che crescono o diminuiscono in modo esponenziale, come i tassi di crescita percentuale.

Media Armonica:

M_H = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}

La media armonica è particolarmente sensibile ai valori più piccoli e può essere utile quando si tratta di relazioni di reciprocità.

Media Quadratica (Root Mean Square):

RMS = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2}

Utilizzata spesso per misurare grandezze in fisica o ingegneria, è la radice quadrata della media dei quadrati dei dati.

Percentili:

Calcolo: Divisione dei dati in 100 parti percentuali. Il 50° percentile corrisponde alla mediana, mentre il 25° e 75° percentile corrispondono al primo e terzo quartile.

Le misure di centralità sono fondamentali per comprendere il punto attorno al quale si raggruppano i dati. La scelta della misura dipende dalla natura dei dati e dagli obiettivi analitici specifici. La media aritmetica è comunemente utilizzata, ma la mediana è spesso preferita quando la distribuzione è influenzata da outlier.

Libro consigliato:

Se ti piace quest’argomento, ti consiglio questo libro:

Fondamenti di Statistica per Data Scientists

Esempio in Python del calcolo delle misure di centralità

Di seguito trovi un esempio in Python per calcolare alcune delle misure di centralità menzionate. Utilizzeremo il modulo NumPy per la manipolazione dei dati e il calcolo delle statistiche.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import mode

# Dati di esempio
data = np.array([10, 15, 18, 22, 25, 30, 35, 40, 50, 18])

# Calcolo delle misure di centralità
mean = np.mean(data)
print('Mean: ', mean)
median = np.median(data)
print('Median: ', median)
mode_result = mode(data)
print('Mode: ', mode_result.mode, ', count(', mode_result.count, ')')
geo_mean = np.exp(np.mean(np.log(data)))
print('Geometric Mean: ', geo_mean)
harmonic_mean = len(data) / np.sum(1 / data)
print('Harmonic Mean: ', harmonic_mean)
rms = np.sqrt(np.mean(data**2))
print('RMS: ', rms)
percentiles = np.percentile(data, [25, 50, 75])
print('Percentiles: ', percentiles)

Eseguendo si ottengono i seguenti valori numerici:

Mean:  26.3
Median:  23.5
Mode:  18 , count( 2 )
Geometric Mean:  23.709468878323285
Harmonic Mean:  21.27039179877534
RMS:  28.82186669874108
Percentiles:  [18.   23.5  33.75]

Possiamo aggiungere del codice per rappresentare graficamente il tutto:

plt.hist(data, bins='auto', color='blue', alpha=0.7)
plt.axvline(x=mean, color='red', linestyle='dashed', linewidth=2, label='Media Aritmetica')
plt.axvline(x=median, color='green', linestyle='dashed', linewidth=2, label='Mediana')
plt.axvline(x=mode_result.mode, color='purple', linestyle='dashed', linewidth=2, label='Moda')
plt.legend()
plt.title('Distribuzione dei Dati con Misure di Centralità')
plt.xlabel('Valori')
plt.ylabel('Frequenza')
plt.show()

plt.bar(['Media', 'Mediana', 'Moda', 'M.Geom', 'M.Arm', 'RMS'],
        [mean, median, mode_result.mode, geo_mean, harmonic_mean, rms], color=['red', 'green', 'purple', 'orange', 'pink', 'blue'])
plt.title('Misure di Centralità')
plt.ylabel('Valori')
plt.show()

plt.boxplot(data, vert=False)
plt.scatter(percentiles, [1, 1, 1], color='red', marker='o', label='Percentili')
plt.title('Boxplot con Percentili')
plt.xlabel('Valori')
plt.yticks([])
plt.legend()
plt.show()

Questo codice crea tre grafici:

  1. Un istogramma che mostra la distribuzione dei dati e le linee verticali per la media, mediana e moda.
  2. Un diagramma a barre che rappresenta le misure di centralità.
  3. Un boxplot con i percentili visualizzati come punti rossi.
Misure di centralità fig 1
Misure di centralità fig 2
Misure di centralità fig 3
Python Data Analytics

Se vuoi approfondire l’argomento e scoprire di più sul mondo della Data Science con Python, ti consiglio di leggere il mio libro:

Python Data Analytics 3rd Ed

Fabio Nelli

L’importanza delle misure di centralità di una dispersione

Le misure di centralità e le misure di dispersione sono entrambe componenti cruciali per la descrizione e la comprensione di un set di dati. Insieme, forniscono un quadro completo della distribuzione statistica e sono fondamentali in molteplici contesti. Ecco l’importanza di considerare insieme misure di centralità e di dispersione:

Descrizione Complessiva dei Dati: Le misure di centralità, come la media, la mediana e la moda, offrono un punto di riferimento per identificare il valore tipico o rappresentativo del set di dati. Le misure di dispersione, come la deviazione standard o l’IQR, quantificano la variabilità attorno a questo punto centrale, fornendo informazioni sul grado di dispersione dei dati.

Valutazione della Variabilità: Confrontare la media con la deviazione standard o l’IQR aiuta a valutare quanto i dati si discostano dal valore centrale tipico. Una deviazione standard elevata indica una maggiore variabilità, mentre un IQR più ampio suggerisce una distribuzione più dispersa.

Sensibilità agli Outlier: Le misure di centralità come la media possono essere influenzate da valori outlier, mentre la mediana è più robusta a tali influenze. Considerare sia la media che la mediana insieme alle misure di dispersione permette di ottenere una comprensione più completa della distribuzione, specialmente in presenza di dati anomali.

Scelta del Modello Statistico: Nel selezionare e adattare modelli statistici, la conoscenza della centralità e della dispersione è fondamentale. Modelli parametrici, ad esempio, possono richiedere l’assunzione di una distribuzione normale dei dati, il che significa che la media e la deviazione standard sono parametri critici.

Previsione e Decisioni: Nel fare previsioni o prendere decisioni basate sui dati, è essenziale comprendere sia il valore centrale che la variabilità. La centralità fornisce una stima del “dove”, mentre la dispersione offre informazioni sul “quanto”.

Controllo di Qualità e Processo: Nel controllo di qualità e processi industriali, le misure di centralità e dispersione sono utilizzate per monitorare la stabilità e la variabilità del processo. Ad esempio, il controllo statistico di processo (SPC) impiega queste misure per valutare la conformità ai requisiti di qualità.

Comunicazione Efficace: Presentare sia la centralità che la dispersione nei dati fornisce una rappresentazione più completa e accurata della distribuzione. Questo facilita la comunicazione e l’interpretazione dei risultati a un pubblico più ampio.

In sintesi, comprendere sia le misure di centralità che di dispersione è fondamentale per ottenere una visione completa dei dati. Queste misure lavorano in sinergia per fornire un quadro completo della distribuzione, consentendo analisi statistiche più accurate e decisioni più informate.

Lascia un commento