Covarianza e coefficiente di correlazione

Definiamo Covarianza tra due variabili aleatorie $X$ e $Y$ qualsiasi la quantità:

$$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{COV(X,Y)=E[(X-E(X))(Y-E(Y))]}$$

La covarianza indica la tendenza che hanno 2 variabili aleatorie ad associarsi.

Più in particolare, se tale tendenza fa si che "valori grandi" (rispetto il valore atteso) di $X$ si accostino a valori grandi di $Y$, oppure "valori piccoli" (rispetto il valore atteso) di $X$ con valori piccoli di $Y$, la covarianza è maggiore o uguale a 0. In questo caso si dice che $X$ e $Y$ sono correlate positivamente.

Se invece valori piccoli di $X$ tendono ad accoppiarsi con valori grandi di $Y$ o viceversa, la covarianza sarà minore o uguale a 0 e le variabili aleatorie in questione si diranno correlate negativamente.

Due variabili aleatorie $X$ e $Y$ si dicono incorrelate se la loro covarianza è nulla:

$$COV(X,Y)=0$$

Un modo più semplice per calcolare la covarianza tra due numeri aleatori $X$ e $Y$ è:

$$COV(X,Y)=E(XY)-E(X)E(Y)$$

Infatti, applicando le proprietà del valor medio e osservando che $E(X)$ ed $E(Y)$ sono delle costanti, si ha:

$\begin{array}{l} COV(X,Y)&=E[(X-E(X))(Y-E(Y))]=E[XY-X\cdot E(Y)-Y\cdot E(X)+E(X)\cdot E(Y)]=\\ &=E(XY)-E[X\cdot E(Y)]-E[Y\cdot E(X)]+E[E(X)\cdot E(Y)]=\\ &=E(XY)-E(X)\cdot E(Y)-E(Y)\cdot E(X)+E(X)\cdot E(Y)=E(XY)-E(X)E(Y)\end{array}$

Proprietà della covarianza tra due numeri aleatori

Mediante l'uso della definizione si dimostra che la covarianza gode delle seguenti proprietà:

  1. La covarianza tra due variabili aleatorie X e Y indipendenti è nulla
  2. $$X,Y\ \mbox{indipendenti}\quad\Rightarrow\quad COV(X,Y)=0$$
  3. La covarianza tra una variabile aleatoria X e se stessa coincide con la varianza di X
  4. $$COV(X,X)=VAR(X)$$
  5. La covarianza tra una variabile aleatoria X e qualsiasi costante a vale 0 (pertanto una costante e un numero aleatorio sono sempre incorrelati)
  6. $$COV(X,a)=0$$
  7. Due costanti a e b sono sempre incorrelate
  8. $$COV(a,b)=0$$

Covarianza tra somme di più numeri aleatori

Supponiamo di avere:

$$X=\sum\limits_{i=1}^na_iX_i\quad\quad Y=\sum\limits_{j=1}^mb_jY_j$$

Si ha che la covarianza tra somme è data dalla seguente formula

$$COV(X,Y)=\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_jCOV(X_i,Y_j)$$

Dimostriamolo:

$\begin{array}{l} COV(X,Y)&=E\left(\sum\limits_{i=1}^na_iX_i\cdot\sum\limits_{j=1}^mb_jY_j\right)-E\left(\sum\limits_{i=1}^na_iX_i\right)E\left(\sum\limits_{j=1}^mb_jY_j\right)=\\ &=E\left(\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_jX_iY_j\right)-\left(\sum\limits_{i=1}^na_iE(X_i)\cdot\sum\limits_{j=1}^mb_jE(Y_j)\right)=\\ &=\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_jE(X_i,Y_j)-\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_jE(X_i)E(Y_j)=\\ &=\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_j\left[E(X_iY_j)-E(X_i)E(Y_j)\right]=\sum\limits_{i=1}^n\sum\limits_{j=1}^ma_ib_jCOV(X_i,Y_j)\end{array}$

Per finire, scriviamo la formula per il calcolo della varianza della somma di due variabili aleatorie dipendenti.

$$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{VAR(X+Y)=VAR(X)+VAR(Y)+2COV(X,Y)}$$

Osserviamo che, nel caso di variabili aleatorie dipendenti, il termine $COV(X,Y)\neq 0$. È quindi fondamentale introdurlo nella formula precedente a differenza invece del caso di variabili aleatorie indipendenti in cui la covarianza risulta essere nulla.

Coefficiente di correlazione

Dati due numeri aleatori $X$ e $Y$, si dice coefficiente di correlazione o covarianza normalizzata di $X$ e $Y$ il rapporto tra la covarianza e il prodotto delle deviazioni standard dei numeri aleatori:

$$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{\rho_{X,Y}=\frac{COV(X,Y)}{\sigma_X\cdot\sigma_Y}}$$

Il coefficiente di correlazione indica quanto X e Y sono dispersi attorno ad una certa retta. Nel caso in cui il coefficiente di correlazione vale $\pm 1$ vuol dire che tra i valori di X e di Y c'è un legame lineare, per cui tutti i punti staranno sulla retta che li lega.

Questo significa che, tanto più i punti di X e Y sono sparpagliati, tanto più il coefficiente di correlazione è vicino allo 0.

Significato geometrico del coefficiente di correlazione

Si dimostrano le seguenti proprietà del coefficiente di correlazione:

  1. Il coefficiente di correlazione è un numero compreso tra -1 e 1
  2. $$-1\le\rho_{X,Y}\le 1$$
  3. Nel caso particolare in cui $\rho_{X,Y}=\pm 1$ esiste una relazione lineare tra X e Y ossia
  4. $$\rho_{X,Y}=\pm 1\quad\Leftrightarrow\quad\exists a,b\in\mathbb R:\ Y=aX+B$$

Forza della correlazione

A seconda del valore del coefficiente angolare $\rho$, possiamo indicarne l'intensità della correlazione:

Forza della correlazione

Vai agli esercizi svolti

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.