Webtudordimatematica

Coefficiente di correlazione di Pearson

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Dati due variabili quantitative X e Y, si dice coefficiente di correlazione lineare o covarianza normalizzata di X e Y il rapporto tra la covarianza e il prodotto delle deviazioni standard dei numeri aleatori X e Y:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\rho=\frac{COV(X,Y)}{\sigma_X\cdot\sigma_Y}}$$

Il coefficiente di correlazione varia tra -1 e 1 e serve per misurare la forza della dipendenza lineare (correlazione lineare) tra due variabili numeriche. In particolare:

  • Se $0<\rho <1$ esiste una correlazione diretta o positiva tra X e Y o, ciò che è lo stesso, X e Y sono correlati direttamente o positivamente. Questo vuol dire che all'aumentare (o al diminuire) di X aumenta (o diminuisce) pure Y.
  • Se $-1<\rho <0$ esiste una correlazione inversa o negativa tra X e Y o, ciò che è lo stesso, X e Y sono correlati inversamente o negativamente. Questo vuol dire che all'aumentare di X Y diminuisce e viceversa, al diminuire di X Y aumenta.
  • Se $\rho=0$ non esiste nessuna correlazione tra X e Y e perciò si dicono incorrelati.

 

Significato geometrico del coefficiente di correlazione

Il coefficiente di correlazione indica quanto X e Y sono dispersi attorno a una certa retta. Nel caso in cui il coefficiente di correlazione vale $\pm 1$ vuol dire che tra i valori di X e di Y c'è un legame lineare, per cui tutti i punti stanno sulla retta che li lega.

Questo significa che, tanto più i punti di X e Y sono sparpagliati in maniera casuale nel piano, tanto più il coefficiente di correlazione è vicino allo 0. Guardando le immagini sotto si evince che:

  • Se $0<\rho <1$ le coppie di punti $(x_i,y_i)$ tendono a posizionarsi lungo una retta crescente. In particolare, tanto più il coefficiente angolare è si avvicina a 1 tanto più i punti saranno vicini alla retta.
  • Se $-1<\rho <0$ le coppie di punti $(x_i,y_i)$ tendono a posizionarsi lungo una retta decrescente. In particolare, tanto più il coefficiente angolare è si avvicina a -1 tanto più i punti saranno vicini alla retta.
  • Se $\rho=0$ non esiste una retta interpolatrice dei punti dato che non seguono nessun andamento lineare.

Correlazione lineare

 La retta che interpola i punti viene chiamata retta di regressione e ha equazione $Y=b_0+b_1\cdot X$. Ti ho parlato del modello di regressione semplice più approfonditamente in questa lezione.

 

Forza della correlazione

A seconda del valore assoluto del coefficiente angolare $\rho$, possiamo descrivere l'intensità della correlazione. La tabella sottostante descrive la forza della correlazione:

Forza della correlazione

 

Formula veloce per il calcolo del coefficiente di correlazione

Per semplificare e velocizzare i calcoli si può far uso della seguente formula operativa per calcolare il coefficiente di correlazione: $$\rho=\cfrac{\sum\limits_{i=1}^nx_i\cdot y_i-n\cdot\overline{x}\cdot\overline{y}}{\sqrt{\left(\sum\limits_{i=1}^nx_i^2-n\cdot\overline{x}\right)\cdot\left(\sum\limits_{i=1}^ny_i^2-n\cdot\overline{y}\right)}}$$

dove $\overline{x}$ e $\overline{y}$ sono rispettivamente i valori medi di X e di Y.

 

Coefficiente di correlazione per una tabella di frequenza congiunta

Ci sono casi in cui si vuole analizzare la dipendenza lineare di Y da X partendo da una tabella a doppia entrata contenente le frequenze assolute congiunte di X e Y come del tipo che vedi qui sotto

Struttura di una tabella a doppia entrata

 

In questo caso devo calcolare la covarianza con la formula operativa spiegata in questa lezione, ossia: $$COV(X,Y)=\cfrac{\sum\limits_{j=1}^c\sum\limits_{i=1}^rx_i\cdot y_j\cdot n_{ij}-n\cdot\overline{x}\cdot\overline{y}}{n}$$ e successivamente le deviazioni standard ponderate di X e Y: $$\begin{array}{l}\sigma_x=\sqrt{\cfrac{x_1^2\cdot n_{1\cdot}+x_2^2\cdot n_{2\cdot}+\dots + x_r^2\cdot n_{r\cdot}-n\cdot\overline{x}^2}{n}}\\ \sigma_y=\sqrt{\cfrac{y_1^2\cdot n_{\cdot 1}+y_2^2\cdot n_{\cdot 2}+\dots + y_c^2\cdot n_{\cdot c}-n\cdot\overline{y}^2}{n}}\end{array}$$

Infine, calcolo il coefficiente di correlazione usando la stessa formula che ti ho scritto all'inizio della lezione.

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.