Webtudordimatematica

Distribuzione normale

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

La distribuzione normale o di Gauss è la distribuzione di variabile continua di gran lunga più usata perché è in grado di descrivere la maggior parte dei fenomeni che accadono in natura. Il termine normale, deriva dal fatto che variabili continue come il peso, l'altezza, la larghezza delle foglie di una pianta, ecc assumono valori normali, ossia valori che oscillano sempre in un certo range.

Ti ho spiegato questo concetto in un video che trovi in fondo alla pagina (clicca qui). Se invece sei interessato alle applicazioni, puoi consultare gli esercizi sulla distribuzione normale accuratamente selezionati e visionabili al seguente link:

 

Vai agli esercizi

 

Questa distribuzione, è particolarmente importante non solo perché molti fenomeni osservati nella vita reale sono descritti dalla distribuzione normale, ma anche perché può essere utilizzata come distribuzione limite in quanto è una distribuzione alla quale tendono altre distribuzioni. Se vuoi approfondire leggi:

Inoltre, all'aumentare della numerosità del campione, si dimostra che i dati osservati seguono un andamento normale. Quest'ultima caratteristica viene messa in evidenza nel famoso Teorema del Limite Centrale  di cui te ne ho parlato in questo articolo.

In alternativa ho registrato un video che trovi a fine pagina in cui ti spiego il significato concreto della distribuzione normale e il motivo per cui è così famosa!

Definizione e grafico della distribuzione normale

Una variabile aleatoria continua $X$ con media $\mu$ e scarto quadratico medio $\sigma$ ha distribuzione normale (e si indica con $X\sim N(\mu,\sigma)$) se la sua funzione di densità è:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{f(x)=\cfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}}$$

dove $\mu$ e $\sigma$ sono i parametri della distribuzione normale che indicano rispettivamente il valore medio e la deviazione standard (o scarto quadratico medio). Ti parlerò di questi in dettaglio più avanti nell'articolo. Il generico grafico della distribuzione normale (detto anche funzione di densità della normale) è rappresentato qui sotto.

Grafico della distribuzione normale

 

I valori che si trovano vicino il centro della curva (quindi attorno al valore medio) sono quelli più comuni nella popolazione mentre i valori che stanno all'estremità della curva (quindi vicino le code) sono quelli più rari.

Caratteristiche della distribuzione normale

Di seguito ti elenco le caratteristiche fondamentali della curva normale di Gauss facendo riferimento alla figura qui sotto.

 

Caratteristiche della distribuzione normale
FIGURA 2

Forma

La distribuzione normale, come già visto, ha sempre la forma a campana ma questa può variare in base alla deviazione standard. Infatti, esistono 3 tipi di curve normali a seconda del valore della deviazione standard:

  • curva leptocurtica, cioè più appuntita della curva normale (con bassa deviazione standard)
  • curva normocurtica o mesocurtica, cioè come una curva normale (con regolare deviazione standard)
  • curva platicurtica, cioè più piatta della curva normale (con alta deviazione standard)

Forma della distribuzione normale

 

Il plot soprastante è stato realizzato completamente in R Studio. Se vuoi imparare a graficare la distribuzione normale in R contattami cliccando qui.

Curtosi

Per comprendere quale delle tre forme appena descritte assume la distribuzione normale, esiste un coefficiente di forma chiamato curtosi. Te ne ho parlato approfonditamente in questa lezione.

Simmetria

La distribuzione normale è simmetrica rispetto al valor medio $\mu$ (nella figura 2 vedi che la retta $x=\mu$ spacca la curva esattamente a metà)

Valore massimo e moda

Il valore massimo della distribuzione normale si ottiene in corrispondenza del valore medio $\mu$ nel quale, la funzione di densità $f(x)$ assume valore $\cfrac{1}{\sigma\sqrt{2\pi}}$ come puoi vedere nel grafico sopra. Il valore massimo della funzione di densità della distribuzione normale rappresenta la moda che quindi coincide con il valore medio $\mu$.

Asintoti e monotonia

Dalla figura 2 si può vedere che tanto più $x$ si allontana da $\mu$ quanto più $f(x)$ decresce e tende asintoticamente a zero.

Punti di flesso

Se stai studiando statistica matematica ti è utile sapere che i punti $\mu-\sigma$ e $\mu+\sigma$ sono punti di flesso della curva normale (osserva la figura 2).

Deviazione standard

Esiste una legge empirica chiamata disuguaglianza di Cebicev tramite la quale è possibile dedurre il valore di probabilità in intervalli specifici dettati dal numero di deviazioni standard delle quali ci si discosta dal valore medio. In altre parole, se conosciamo la deviazione standard oltre che la media dei nostri valori normali, dal teorema di Cebicev segue che:

  • Il $68,26%\%$ delle osservazioni rientra in $(\mu-\sigma,\mu+\sigma)$ (detto anche "più o meno una deviazione standard").
  • Il $95,44\%$ delle osservazioni rientra in $(\mu-2\sigma,\mu+2\sigma)$(detto anche "più o meno due deviazioni standard")
  • Il $99,72\%$ delle osservazioni rientra in $(\mu-3\sigma,\mu+3\sigma)$ (detto anche "più o meno tre deviazioni standard")

La figura qui sotto rappresenta quanto appena detto.

Funzione di densità della distribuzione normale standard

  

I parametri della distribuzione normale

$\mu$ e $\sigma$, come detto sono i parametri che definiscono la distribuzione normale. Il valore medio o valore atteso $\mu$ denota il centro della distribuzione normale, ossia quel valore a cui è corrisponde il valore massimo del grafico. Inoltre,  questo caratterizza la posizione della curva sull'asse delle ascisse: al variare di $\mu$ la curva si sposta lungo l'asse $x$, ma resta invariata nella sua forma (vedi grafico qui sotto).

Il valore medio della distribuzione normale

La deviazione standard $\sigma$, invece, caratterizza la forma della curva, in quanto è una misura della dispersione dei valori attorno al valore medio: al variare di $\sigma$ la curva cambia forma: infatti al crescere di $\sigma$ la curva si appiattisce e si allarga, mentre al diminuire di $\sigma$ la curva si restringe e si alza.

Deviazione standard della distribuzione normale

 

Funzione di ripartizione cumulata normale

Per calcolare la probabilità sottesa dalla curva in un determinato intervallo di valori z, devi calcolare la funzione di ripartizione cumulata della distribuzione normale che è data da:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\begin{eqnarray*}F(x)&=&P(X\le x)=\\ &=&\cfrac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{1}{2}\left(\frac{t-\mu}{\sigma}\right)^2}\ dt\end{eqnarray*}}$$

Tuttavia, il calcolo della funzione cumulata non può essere eseguito mediante la formula suddetta perché questo richiederebbe svolgere un integrale non di facile risoluzione. Per tale motivo, si fa uso di una tavola (figura qui sotto) in cui è possibile leggere i valori di probabilità in corrispondenza dell'area sottesa identificata dai valori z.

Tavola della distribuzione normale standard

Imparare a leggere la tavola della distribuzione normale è facile. Consulta questo articolo per saperne di più oppure vai direttamente agli esercizi svolti cliccando sul bottone blu qui sotto.

 

Vai agli esercizi

 

Se hai appena iniziato a studiare la distribuzione normale, ti consiglio di completare questa lettura prima di andare a consultare gli esercizi.

Formula di standardizzazione

Sicuramente hai già sentito parlare di distribuzione normale standard o normale standardizzata ma se così non fosse non preoccuparti perché sto per spiegarti cos'è la standardizzazione e come standardizzare un valore.

Standardizzare una variabile $X$ con media $\mu$ e deviazione standard $\sigma$ significa applicare la seguente formula:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{Z=\frac{X-\mu}{\sigma}}$$

dove $X$ può essere una variabile normale continua che assume infiniti valori oppure può anche essere un singolo valore.

Il significato della formula si può così spiegare:

  1. sottrarre la media $\mu$ consente di centrare la variabile $X$ nell'origine, ossia la nuova variabile $Z$ ottenuta ha $\mu=0$;
  2. dividere per la deviazione standard $\sigma$, permette di normalizzare la variabile in modo che $Z$ abbia $\sigma=1$

Il risultato è una variabile $Z$ avente distribuzione normale standard (media 0 e varianza 1) i cui valori da essa assunti sono numeri puri, adimensionali, senza unità di misura. Per indicare una variabile normale standardizzata $Z$ si usa la seguente notazione: $Z\sim N(0,1)$.

Esempio
Supponiamo che il valore $x=4.1$ è assunto da una variabile casuale $X$ avente media $\mu=3$ e varianza $\sigma^2=4$. Calcolare il punteggio z corrispondente.

 

Svolgimento
Applico la formula di standardizzazione suddetta facendo attenzione a fare la radice della varianza al denominatore per ottenere la deviazione standard:
$$z=\cfrac{x-\mu}{\sigma}=\cfrac{4.1-3}{\sqrt{4}}=0.55$$

 

Qui sotto trovi l'espressione della funzione di densità normale standard

$$f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$$

 

Qui sotto invece la funzione cumulata della distribuzione normale standard:

$$\begin{eqnarray*}
F(z_c)&=& P(Z\le z_c)=\\
&=&\int_{-\infty}^{z_c} f(z)\ dz=\\
&=&\int_{-\infty}^{z_c}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}\ dz\end{eqnarray*}$$

Molto spesso la funzione cumulativa della normale viene indicata con il simbolo $\Phi(z_c)$ invece che $F(z_c)$. Come mostra la figura sottostante questa sta a indicare il valore dell'area sottesa dalla curva normale a sinistra del valore critico o quatile $z_c$.

Curva normale e area sottesa

 

Perché standardizzare?

Ma a cosa serve standardizzare? I principali motivi per cui si standardizza sono:

  • Confrontare elementi di diverse variabili e diverse unità di misura.
  • Ai fini del calcolo delle probabilità permette di utilizzare semplicemente una tavola statistica anziché dover calcolare integrali difficili.
  • Semplifica la vita perché, grazie alla tavola, non abbiamo bisogno di effettuare calcoli specifici per ogni valore di media e varianza: infatti, standardizzando i valori della distribuzione si ottiene sempre media nulla e varianza pari a 1.

 

Calcolo dell'area sottesa dalla curva normale

Per determinare la probabilità che la variabile causale normale assuma un valore compreso in un determinato intervallo $(a,b)$ è necessario calcolare l'area sotto la curva compresa tra $a$ e $b$ (vedi figura in basso).

Distribuzione normale standard

Questo significherebbe calcolare il seguente integrale:

$$P(a\le X\le b)=\int_a^b f(x)\ dx=\int_a^b \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\ dx$$

che riscritto in termini di funzione di ripartizione diventa:

$$P(a\le X\le b)=F(b)-F(a)$$

Come già detto il valore di tale probabilità si può ricavare facilmente consultando la tavola normale. Nella sezione esercizi (clicca sul bottone blu presente qui sotto) ti ho fornito tutte le tipologie di problemi sul calcolo della probabilità di una variabile normale che ti possono capitare in un esame di statistica.

 

Vai agli esercizi

 

Guarda il video che ho registrato in cui ti faccio capire con un esempio pratico cos'è la distribuzione normale e perché descrive molti fenomeni in natura.

 

 

La distribuzione normale in Excel

Non sai come calcolare la distribuzione normale in Excel?  Qui di seguito l'elenco delle funzioni Excel disponibili:

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.