Webtudordimatematica

Distribuzione normale

La distribuzione di variabile continua di gran lunga più usata è la distribuzione normale o di Gauss (nome dell'inventore).

Il termine distribuzione normale deriva dalla convinzione (non del tutto corretta) che gli errori accidentali o casuali, commessi effettuando misure ripetute, si distribuiscano secondo tale curva.

Questa distribuzione, è particolarmente importante sia perché molti fenomeni osservati nella vita reale sono descritti dalla distribuzione normale, sia perché può essere utilizzata come distribuzione limite in quanto è una distribuzione alla quale tendono altre distribuzioni. In particolare, all'aumentare della numerosità del campione, si dimostra che i dati osservati seguono un andamento normale. Quest'ultima caratteristica viene messa in evidenza nel famoso Teorema del Limite Centrale  di cui te ne ho parlato in questo articolo.

In alternativa ho registrato un video che trovi a fine pagina in cui ti spiego il significato concreto della distribuzione normale e il motivo per cui è così famosa!

Definizione e grafico della distribuzione normale

Una variabile aleatoria continua $X$ con media $\mu$ e scarto quadratico medio $\sigma$ ha distribuzione normale (e si indica con $X\sim N(\mu,\sigma)$) se la sua funzione di densità è:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{f(x)=\cfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}}$$

dove $\mu$ e $\sigma$ sono i parametri della distribuzione normale che indicano rispettivamente il valore medio e la deviazione standard (o scarto quadratico medio). Ti parlerò di questi in dettaglio più avanti nell'articolo. Il generico grafico della distribuzione normale (detto anche funzione di densità della normale) è rappresentato qui sotto.

Grafico della distribuzione normale

 

I valori che si trovano vicino il centro della curva (quindi attorno al valore medio) sono quelli più comuni nella popolazione mentre i valori che stanno all'estremità della curva (quindi vicino le code) sono quelli più rari.

Proprietà della distribuzione normale

Di seguito ti elenco le caratteristiche fondamentali della curva di Gauss:

  • la forma a campana;
  • la simmetria rispetto al valor medio $\mu$;
  • il massimo per $x=\mu$, dove l'ordinata corrisponde a $\cfrac{1}{\sigma\sqrt{2\pi}}$;
  • i punti $\mu-\sigma$ e $\mu+\sigma$ sono punti di flesso;
  • quanto più $x$ si allontana da $\mu$ tanto più $f(x)$ decresce e tende asintoticamente a zero.

Proprietà della curva di Gauss

 

I parametri della distribuzione normale

$\mu$ e $\sigma$, come detto sono i parametri che definiscono la distribuzione normale. Il valore medio o valore atteso $\mu$ denota il centro della distribuzione normale, ossia quel valore a cui è corrisponde il valore massimo del grafico. Inoltre,  questo caratterizza la posizione della curva sull'asse delle ascisse: al variare di $\mu$ la curva si sposta lungo l'asse $x$, ma resta invariata nella sua forma (vedi grafico qui sotto).

Il valore medio della distribuzione normale

La deviazione standard $\sigma$, invece, caratterizza la forma della curva, in quanto è una misura della dispersione dei valori attorno al valore medio: al variare di $\sigma$ la curva cambia forma: infatti al crescere di $\sigma$ la curva si appiattisce e si allarga, mentre al diminuire di $\sigma$ la curva si restringe e si alza.

Deviazione standard della distribuzione normale

 

Funzione di ripartizione cumulata normale

Per calcolare la probabilità sottesa dalla curva in un determinato intervallo di valori z, devi calcolare la funzione di ripartizione cumulata della distribuzione normale che è data da:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\begin{eqnarray*}F(x)&=&P(X\le x)=\\ &=&\cfrac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{1}{2}\left(\frac{t-\mu}{\sigma}\right)^2}\ dt\end{eqnarray*}}$$

Tuttavia, il calcolo della funzione cumulata non può essere eseguito mediante la formula suddetta perché questo richiederebbe svolgere un integrale non di facile risoluzione. Per tale motivo, si fa uso di una tavola (figura qui sotto) in cui è possibile leggere i valori di probabilità in corrispondenza dell'area sottesa identificata dai valori z.

Tavola della distribuzione normale standard

Imparare a leggere la tavola della distribuzione normale è facile. Consulta questo articolo per saperne di più oppure vai direttamente agli esercizi svolti cliccando sul bottone blu qui sotto.

 

Vai agli esercizi

 

Se hai appena iniziato a studiare la distribuzione normale, ti consiglio di completare questa lettura prima di andare a consultare gli esercizi.

Formula di standardizzazione

Sicuramente hai già sentito parlare di distribuzione normale standard o normale standardizzata ma se così non fosse non preoccuparti perché sto per spiegarti cos'è la standardizzazione e come standardizzare un valore.

Standardizzare una variabile $X$ con media $\mu$ e deviazione standard $\sigma$ significa applicare la seguente formula:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{Z=\frac{X-\mu}{\sigma}}$$

dove $X$ può essere una variabile normale continua che assume infiniti valori oppure può anche essere un singolo valore.

Il significato della formula si può così spiegare:

  1. sottrarre la media $\mu$ consente di centrare la variabile $X$ nell'origine, ossia la nuova variabile $Z$ ottenuta ha $\mu=0$;
  2. dividere per la deviazione standard $\sigma$, permette di normalizzare la variabile in modo che $Z$ abbia $\sigma=1$

Il risultato è una variabile $Z$ avente distribuzione normale standard (media 0 e varianza 1) i cui valori da essa assunti sono numeri puri, adimensionali, senza unità di misura. Per indicare una variabile normale standardizzata $Z$ si usa la seguente notazione: $Z\sim N(0,1)$.

Esempio
Supponiamo che il valore $x=4.1$ è assunto da una variabile casuale $X$ avente media $\mu=3$ e varianza $\sigma^2=4$. Calcolare il punteggio z corrispondente.

 

Svolgimento
Applico la formula di standardizzazione suddetta facendo attenzione a fare la radice della varianza al denominatore per ottenere la deviazione standard:
$$z=\cfrac{x-\mu}{\sigma}=\cfrac{4.1-3}{\sqrt{4}}=0.55$$

 

Qui sotto trovi l'espressione della funzione di densità normale standard e il suo grafico

$$f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$$

Funzione di densità della distribuzione normale standard

Dalla disuguaglianza di Cebicev è possibile dedurre il valore di probabilità in intervalli specifici per le distribuzioni campanulari simmetriche come quella di Gauss:

  • Il $68,26%\%$ delle osservazioni rientra in $(\mu-\sigma,\mu+\sigma)$
  • Il $95,44\%$ delle osservazioni rientra in $(\mu-2\sigma,\mu+2\sigma)$
  • Il $99,72\%$ delle osservazioni rientra in $(\mu-3\sigma,\mu+3\sigma)$

Qui sotto invece la funzione cumulata della distribuzione normale standard:

$$\begin{eqnarray*}
F(z_c)&=& P(Z\le z_c)=\\
&=&\int_{-\infty}^{z_c} f(z)\ dz=\\
&=&\int_{-\infty}^{z_c}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}\ dz\end{eqnarray*}$$

Molto spesso la funzione cumulativa della normale viene indicata con il simbolo $\Phi(z_c)$ invece che $F(z_c)$. Come mostra la figura sottostante questa sta a indicare il valore dell'area sottesa dalla curva normale a sinistra del valore critico o quatile $z_c$.

Curva normale e area sottesa

 

Perché standardizzare?

Ma a cosa serve standardizzare? I principali motivi per cui si standardizza sono:

  • Confrontare elementi di diverse variabili e diverse unità di misura.
  • Ai fini del calcolo delle probabilità permette di utilizzare semplicemente una tavola statistica anziché dover calcolare integrali difficili.
  • Semplifica la vita perché, grazie alla tavola, non abbiamo bisogno di effettuare calcoli specifici per ogni valore di media e varianza: infatti, standardizzando i valori della distribuzione si ottiene sempre media nulla e varianza pari a 1.

 

Calcolo dell'area sottesa dalla curva normale

Per determinare la probabilità che la variabile causale normale assuma un valore compreso in un determinato intervallo $(a,b)$ è necessario calcolare l'area sotto la curva compresa tra $a$ e $b$ (vedi figura in basso).

Distribuzione normale standard

Questo significherebbe calcolare il seguente integrale:

$$P(a\le X\le b)=\int_a^b f(x)\ dx=\int_a^b \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\ dx$$

che riscritto in termini di funzione di ripartizione diventa:

$$P(a\le X\le b)=F(b)-F(a)$$

Come già detto il valore di tale probabilità si può ricavare facilmente consultando la tavola normale. Nella sezione esercizi (clicca sul bottone blu presente qui sotto) ti ho fornito tutte le tipologie di problemi sul calcolo della probabilità di una variabile normale che ti possono capitare in un esame di statistica.

 

Vai agli esercizi

 

Guarda il video che ho registrato in cui ti faccio capire con un esempio pratico cos'è la distribuzione normale e perché descrive molti fenomeni in natura.

 

 

La distribuzione normale in Excel

Non sai come calcolare la distribuzione normale in Excel?  Qui di seguito l'elenco delle funzioni Excel disponibili:

Il quaderno degli appunti
Statistica e Probabilità

Coefficiente di correlazione di Pearson

Dati due variabili quantitative X e Y, si dice coefficiente di correlazione o covarianza normalizzata di X e Y il rapporto tra la covarianza e il prod
Trigonometria

Teorema del coseno o di Carnot

Il teorema del coseno (o di Carnot) è una conseguenza del teorema delle proiezioni (visto qui) e afferma che in un triangolo qualsiasi, il quadrato d
Trigonometria

Teorema delle proiezioni

Il teorema delle proiezioni dice che in un triangolo qualsiasi la misura di un lato è uguale alla somma dei prodotti di quelle degli altri due lati p