Dati due variabili quantitative X e Y, si dice coefficiente di correlazione lineare o covarianza normalizzata di X e Y il rapporto tra la covarianza e il prodotto delle deviazioni standard dei numeri aleatori X e Y:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\rho=\frac{COV(X,Y)}{\sigma_X\cdot\sigma_Y}}$$
Il coefficiente di correlazione varia tra -1 e 1 e serve per misurare la forza della dipendenza lineare (correlazione lineare) tra due variabili numeriche. In particolare:
- Se $0<\rho <1$ esiste una correlazione diretta o positiva tra X e Y o, ciò che è lo stesso, X e Y sono correlati direttamente o positivamente. Questo vuol dire che all'aumentare (o al diminuire) di X aumenta (o diminuisce) pure Y.
- Se $-1<\rho <0$ esiste una correlazione inversa o negativa tra X e Y o, ciò che è lo stesso, X e Y sono correlati inversamente o negativamente. Questo vuol dire che all'aumentare di X Y diminuisce e viceversa, al diminuire di X Y aumenta.
- Se $\rho=0$ non esiste nessuna correlazione tra X e Y e perciò si dicono incorrelati.
Significato geometrico del coefficiente di correlazione
Il coefficiente di correlazione indica quanto X e Y sono dispersi attorno a una certa retta. Nel caso in cui il coefficiente di correlazione vale $\pm 1$ vuol dire che tra i valori di X e di Y c'è un legame lineare, per cui tutti i punti stanno sulla retta che li lega.
Questo significa che, tanto più i punti di X e Y sono sparpagliati in maniera casuale nel piano, tanto più il coefficiente di correlazione è vicino allo 0. Guardando le immagini sotto si evince che:
- Se $0<\rho <1$ le coppie di punti $(x_i,y_i)$ tendono a posizionarsi lungo una retta crescente. In particolare, tanto più il coefficiente angolare è si avvicina a 1 tanto più i punti saranno vicini alla retta.
- Se $-1<\rho <0$ le coppie di punti $(x_i,y_i)$ tendono a posizionarsi lungo una retta decrescente. In particolare, tanto più il coefficiente angolare è si avvicina a -1 tanto più i punti saranno vicini alla retta.
- Se $\rho=0$ non esiste una retta interpolatrice dei punti dato che non seguono nessun andamento lineare.
La retta che interpola i punti viene chiamata retta di regressione e ha equazione $Y=b_0+b_1\cdot X$. Ti ho parlato del modello di regressione semplice più approfonditamente in questa lezione.
Forza della correlazione
A seconda del valore assoluto del coefficiente angolare $\rho$, possiamo descrivere l'intensità della correlazione. La tabella sottostante descrive la forza della correlazione:
Formula veloce per il calcolo del coefficiente di correlazione
Per semplificare e velocizzare i calcoli si può far uso della seguente formula operativa per calcolare il coefficiente di correlazione: $$\rho=\cfrac{\sum\limits_{i=1}^nx_i\cdot y_i-n\cdot\overline{x}\cdot\overline{y}}{\sqrt{\left(\sum\limits_{i=1}^nx_i^2-n\cdot\overline{x}\right)\cdot\left(\sum\limits_{i=1}^ny_i^2-n\cdot\overline{y}\right)}}$$
dove $\overline{x}$ e $\overline{y}$ sono rispettivamente i valori medi di X e di Y.
Coefficiente di correlazione per una tabella di frequenza congiunta
Ci sono casi in cui si vuole analizzare la dipendenza lineare di Y da X partendo da una tabella a doppia entrata contenente le frequenze assolute congiunte di X e Y come del tipo che vedi qui sotto
In questo caso devo calcolare la covarianza con la formula operativa spiegata in questa lezione, ossia: $$COV(X,Y)=\cfrac{\sum\limits_{j=1}^c\sum\limits_{i=1}^rx_i\cdot y_j\cdot n_{ij}-n\cdot\overline{x}\cdot\overline{y}}{n}$$ e successivamente le deviazioni standard ponderate di X e Y: $$\begin{array}{l}\sigma_x=\sqrt{\cfrac{x_1^2\cdot n_{1\cdot}+x_2^2\cdot n_{2\cdot}+\dots + x_r^2\cdot n_{r\cdot}-n\cdot\overline{x}^2}{n}}\\ \sigma_y=\sqrt{\cfrac{y_1^2\cdot n_{\cdot 1}+y_2^2\cdot n_{\cdot 2}+\dots + y_c^2\cdot n_{\cdot c}-n\cdot\overline{y}^2}{n}}\end{array}$$
Infine, calcolo il coefficiente di correlazione usando la stessa formula che ti ho scritto all'inizio della lezione.