La distribuzione normale o di Gauss è la distribuzione di variabile continua di gran lunga più usata perché è in grado di descrivere la maggior parte dei fenomeni che accadono in natura. Il termine normale, deriva dal fatto che variabili continue come il peso, l'altezza, la larghezza delle foglie di una pianta, ecc assumono valori normali, ossia valori che oscillano sempre in un certo range.
Ti ho spiegato questo concetto in un video che trovi in fondo alla pagina (clicca qui). Se invece sei interessato alle applicazioni, puoi consultare gli esercizi sulla distribuzione normale accuratamente selezionati e visionabili al seguente link:
Questa distribuzione, è particolarmente importante non solo perché molti fenomeni osservati nella vita reale sono descritti dalla distribuzione normale, ma anche perché può essere utilizzata come distribuzione limite in quanto è una distribuzione alla quale tendono altre distribuzioni. Se vuoi approfondire leggi:
- Approssimazione distribuzione binomiale con normale
- Approssimazione distribuzione di Poisson con normale
Inoltre, all'aumentare della numerosità del campione, si dimostra che i dati osservati seguono un andamento normale. Quest'ultima caratteristica viene messa in evidenza nel famoso Teorema del Limite Centrale di cui te ne ho parlato in questo articolo.
In alternativa ho registrato un video che trovi a fine pagina in cui ti spiego il significato concreto della distribuzione normale e il motivo per cui è così famosa!
Definizione e grafico della distribuzione normale
Una variabile aleatoria continua $X$ con media $\mu$ e scarto quadratico medio $\sigma$ ha distribuzione normale (e si indica con $X\sim N(\mu,\sigma)$) se la sua funzione di densità è:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{f(x)=\cfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}}$$
dove $\mu$ e $\sigma$ sono i parametri della distribuzione normale che indicano rispettivamente il valore medio e la deviazione standard (o scarto quadratico medio). Ti parlerò di questi in dettaglio più avanti nell'articolo. Il generico grafico della distribuzione normale (detto anche funzione di densità della normale) è rappresentato qui sotto.
I valori che si trovano vicino il centro della curva (quindi attorno al valore medio) sono quelli più comuni nella popolazione mentre i valori che stanno all'estremità della curva (quindi vicino le code) sono quelli più rari.
Caratteristiche della distribuzione normale
Di seguito ti elenco le caratteristiche fondamentali della curva normale di Gauss facendo riferimento alla figura qui sotto.

Forma
La distribuzione normale, come già visto, ha sempre la forma a campana ma questa può variare in base alla deviazione standard. Infatti, esistono 3 tipi di curve normali a seconda del valore della deviazione standard:
- curva leptocurtica, cioè più appuntita della curva normale (con bassa deviazione standard)
- curva normocurtica o mesocurtica, cioè come una curva normale (con regolare deviazione standard)
- curva platicurtica, cioè più piatta della curva normale (con alta deviazione standard)
Il plot soprastante è stato realizzato completamente in R Studio. Se vuoi imparare a graficare la distribuzione normale in R contattami cliccando qui.
Curtosi
Per comprendere quale delle tre forme appena descritte assume la distribuzione normale, esiste un coefficiente di forma chiamato curtosi. Te ne ho parlato approfonditamente in questa lezione.
Simmetria
La distribuzione normale è simmetrica rispetto al valor medio $\mu$ (nella figura 2 vedi che la retta $x=\mu$ spacca la curva esattamente a metà)
Valore massimo e moda
Il valore massimo della distribuzione normale si ottiene in corrispondenza del valore medio $\mu$ nel quale, la funzione di densità $f(x)$ assume valore $\cfrac{1}{\sigma\sqrt{2\pi}}$ come puoi vedere nel grafico sopra. Il valore massimo della funzione di densità della distribuzione normale rappresenta la moda che quindi coincide con il valore medio $\mu$.
Asintoti e monotonia
Dalla figura 2 si può vedere che tanto più $x$ si allontana da $\mu$ quanto più $f(x)$ decresce e tende asintoticamente a zero.
Punti di flesso
Se stai studiando statistica matematica ti è utile sapere che i punti $\mu-\sigma$ e $\mu+\sigma$ sono punti di flesso della curva normale (osserva la figura 2).
Deviazione standard
Esiste una legge empirica chiamata disuguaglianza di Cebicev tramite la quale è possibile dedurre il valore di probabilità in intervalli specifici dettati dal numero di deviazioni standard delle quali ci si discosta dal valore medio. In altre parole, se conosciamo la deviazione standard oltre che la media dei nostri valori normali, dal teorema di Cebicev segue che:
- Il $68,26%\%$ delle osservazioni rientra in $(\mu-\sigma,\mu+\sigma)$ (detto anche "più o meno una deviazione standard").
- Il $95,44\%$ delle osservazioni rientra in $(\mu-2\sigma,\mu+2\sigma)$(detto anche "più o meno due deviazioni standard")
- Il $99,72\%$ delle osservazioni rientra in $(\mu-3\sigma,\mu+3\sigma)$ (detto anche "più o meno tre deviazioni standard")
La figura qui sotto rappresenta quanto appena detto.
I parametri della distribuzione normale
$\mu$ e $\sigma$, come detto sono i parametri che definiscono la distribuzione normale. Il valore medio o valore atteso $\mu$ denota il centro della distribuzione normale, ossia quel valore a cui è corrisponde il valore massimo del grafico. Inoltre, questo caratterizza la posizione della curva sull'asse delle ascisse: al variare di $\mu$ la curva si sposta lungo l'asse $x$, ma resta invariata nella sua forma (vedi grafico qui sotto).
La deviazione standard $\sigma$, invece, caratterizza la forma della curva, in quanto è una misura della dispersione dei valori attorno al valore medio: al variare di $\sigma$ la curva cambia forma: infatti al crescere di $\sigma$ la curva si appiattisce e si allarga, mentre al diminuire di $\sigma$ la curva si restringe e si alza.
Funzione di ripartizione cumulata normale
Per calcolare la probabilità sottesa dalla curva in un determinato intervallo di valori z, devi calcolare la funzione di ripartizione cumulata della distribuzione normale che è data da:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\begin{eqnarray*}F(x)&=&P(X\le x)=\\ &=&\cfrac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{1}{2}\left(\frac{t-\mu}{\sigma}\right)^2}\ dt\end{eqnarray*}}$$
Tuttavia, il calcolo della funzione cumulata non può essere eseguito mediante la formula suddetta perché questo richiederebbe svolgere un integrale non di facile risoluzione. Per tale motivo, si fa uso di una tavola (figura qui sotto) in cui è possibile leggere i valori di probabilità in corrispondenza dell'area sottesa identificata dai valori z.
Imparare a leggere la tavola della distribuzione normale è facile. Consulta questo articolo per saperne di più oppure vai direttamente agli esercizi svolti cliccando sul bottone blu qui sotto.
Se hai appena iniziato a studiare la distribuzione normale, ti consiglio di completare questa lettura prima di andare a consultare gli esercizi.
Formula di standardizzazione
Sicuramente hai già sentito parlare di distribuzione normale standard o normale standardizzata ma se così non fosse non preoccuparti perché sto per spiegarti cos'è la standardizzazione e come standardizzare un valore.
Standardizzare una variabile $X$ con media $\mu$ e deviazione standard $\sigma$ significa applicare la seguente formula:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{Z=\frac{X-\mu}{\sigma}}$$
dove $X$ può essere una variabile normale continua che assume infiniti valori oppure può anche essere un singolo valore.
Il significato della formula si può così spiegare:
- sottrarre la media $\mu$ consente di centrare la variabile $X$ nell'origine, ossia la nuova variabile $Z$ ottenuta ha $\mu=0$;
- dividere per la deviazione standard $\sigma$, permette di normalizzare la variabile in modo che $Z$ abbia $\sigma=1$
Il risultato è una variabile $Z$ avente distribuzione normale standard (media 0 e varianza 1) i cui valori da essa assunti sono numeri puri, adimensionali, senza unità di misura. Per indicare una variabile normale standardizzata $Z$ si usa la seguente notazione: $Z\sim N(0,1)$.
Supponiamo che il valore $x=4.1$ è assunto da una variabile casuale $X$ avente media $\mu=3$ e varianza $\sigma^2=4$. Calcolare il punteggio z corrispondente.
Applico la formula di standardizzazione suddetta facendo attenzione a fare la radice della varianza al denominatore per ottenere la deviazione standard:
$$z=\cfrac{x-\mu}{\sigma}=\cfrac{4.1-3}{\sqrt{4}}=0.55$$
Qui sotto trovi l'espressione della funzione di densità normale standard
$$f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$$
Qui sotto invece la funzione cumulata della distribuzione normale standard:
$$\begin{eqnarray*}
F(z_c)&=& P(Z\le z_c)=\\
&=&\int_{-\infty}^{z_c} f(z)\ dz=\\
&=&\int_{-\infty}^{z_c}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}\ dz\end{eqnarray*}$$
Molto spesso la funzione cumulativa della normale viene indicata con il simbolo $\Phi(z_c)$ invece che $F(z_c)$. Come mostra la figura sottostante questa sta a indicare il valore dell'area sottesa dalla curva normale a sinistra del valore critico o quatile $z_c$.
Perché standardizzare?
Ma a cosa serve standardizzare? I principali motivi per cui si standardizza sono:
- Confrontare elementi di diverse variabili e diverse unità di misura.
- Ai fini del calcolo delle probabilità permette di utilizzare semplicemente una tavola statistica anziché dover calcolare integrali difficili.
- Semplifica la vita perché, grazie alla tavola, non abbiamo bisogno di effettuare calcoli specifici per ogni valore di media e varianza: infatti, standardizzando i valori della distribuzione si ottiene sempre media nulla e varianza pari a 1.
Calcolo dell'area sottesa dalla curva normale
Per determinare la probabilità che la variabile causale normale assuma un valore compreso in un determinato intervallo $(a,b)$ è necessario calcolare l'area sotto la curva compresa tra $a$ e $b$ (vedi figura in basso).
Questo significherebbe calcolare il seguente integrale:
$$P(a\le X\le b)=\int_a^b f(x)\ dx=\int_a^b \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\ dx$$
che riscritto in termini di funzione di ripartizione diventa:
$$P(a\le X\le b)=F(b)-F(a)$$
Come già detto il valore di tale probabilità si può ricavare facilmente consultando la tavola normale. Nella sezione esercizi (clicca sul bottone blu presente qui sotto) ti ho fornito tutte le tipologie di problemi sul calcolo della probabilità di una variabile normale che ti possono capitare in un esame di statistica.
Guarda il video che ho registrato in cui ti faccio capire con un esempio pratico cos'è la distribuzione normale e perché descrive molti fenomeni in natura.
La distribuzione normale in Excel
Non sai come calcolare la distribuzione normale in Excel? Qui di seguito l'elenco delle funzioni Excel disponibili:
- Probabilità normale: DISTRIB.NORM.N (X;Media;Dev_standard;Cumulativo)
- Probabilità normale: DISTRIB.NORM.ST.N (Z;Cumulativa)
- Valore critico normale: INV.NORM.N (Probabilità;Media;Dev_standard)
- Valore critico normale: INV.NORM.S (Probabilità)