Webtudordimatematica

Regressione lineare semplice

La regressione è quella tecnica statistica utilizzata per studiare le relazioni che intercorrono tra due o più caratteri (variabili) statistici. Analizzeremo, dapprima, la relazione tra due sole variabili $X$ e $Y$ (regressione lineare semplice), per poi generalizzare il concetto descrivendo la relazione tra più di due variabili (regressione lineare multipla) $Y$, $X_1$, $X_2$, $X_3$, ecc.

Strettamente legata alla regressione è il concetto di correlazione, infatti:

  • nella teoria della regressione (semplice) si suppone che una variabile $X$ assume valori determinati e si cerca la relazione che lega la seconda variabile $Y$ alla prima: in altre parole si cerca di stabilire un legame funzionale tra le due variabili (del tipo $Y=\beta_0+\beta_1X$).
  • nella teoria della correlazione si determina il grado di interdipendenza tra le due variabili, ovvero si determina se ad una variazione del carattere $X$ corrisponde una variazione più o meno sensibile del carattere $Y$.

Il tipo di regressione che studieremo noi è chiamata regressione dei minimi quadrati.

Denotando con $\hat{X}$ la variabile indipendente stimata e con $\hat{Y}$ la variabile dipendente stimata, il problema che ci poniamo è quello di determinare dei coefficienti reali $b_0$ e $b_1$ per i quali sussiste la seguente relazione lineare tra le due variabili: $$\hat{Y}=b_0+b_1\hat{X}$$

Essa è nota come retta di regressione dei minimi quadrati e rappresenta la miglior retta interpolatrice dei punti del piano $(x_i,y_i)$ (punti in verde nell'immagine sotto), essendo $x_i$ i valori assunti dalla variabile $X$ e $y_i$ i valori assunti dalla variabile $Y$. L'immagine seguente ci fornisce un'idea grafica della retta di regressioneRetta dei minimi quadrati

Il coefficiente $b_0$ è detto intercetta e rappresenta il valore della variabile $Y$ quando $X=0$ nonchè la stima del parametro reale $\beta_0$; mentre $b_1$ è chiamato coefficiente angolare o coefficiente di regressione o, ancora, pendenza della retta e rappresenta la variazione subita in media dal carattere $Y$ per effetto di un aumento unitario del carattere $X$, nonchè la stima del parametro reale $\beta_1$.

Il coefficiente di regressione può variare da $-\infty$ a $+\infty$:

  • se $b_1 > 0$, la retta di regressione è crescente e il carattere $Y$ aumenta all'aumentare di $X$Retta di regressione crescente o con pendenza positiva
  • se $b_1 < 0$, la retta di regressione è decrescente e il carattere $Y$ diminuisce all'aumentare di $X$
    Retta di regressione decrescente o con pendenza negativa
  • se $b_1 = 0$, la retta di regressione è costante e il carattere $Y$ non varia al variare del carattere $X$
    Retta di regressione costante o con pendenza nulla

Ma come si calcolano i coefficienti stimati della retta di regressione $b_0$ e $b_1$?

Coefficienti stimati retta regressione

Ecco qui tutti i passi da compiere per calcolare le stime dei parametri della retta di regressione:

  1. si calcolano i valori medi $\overline{x}$ e $\overline{y}$ rispettivamente di $X$ e di $Y$;
  2. Si calcola la varianza campionaria di $X$, $s_x^2$ e la covarianza tra $X$ e $Y$, $COV(X,Y)$;
  3. Infine si trovano $b_0$ e $b_1$ con le seguenti formule:

    $$b_1=\frac{COV(X,Y)}{s_x^2}$$

    $$b_0=\overline{y}-b_1\overline{x}$$

Nota: Per il calcolo del valor medio e della varianza puoi consultare questo articolo, mentre per il calcolo della covarianza si può usare la seguente formula:

$$Cov(X,Y)=s_{x,y}=\frac{\sum\limits_{i=1}^n(x_i\cdot y_i)-n\cdot\overline{x}\cdot\overline{y}}{n-1}$$

Devianze e coefficiente di determinazione $R^2$

Indicando con $\hat{y}_i$ e $y_i$ rispettivamente i valori di Y predetti dal modello (o teorici) e quelli osservati, definiamo le seguenti devianze o scarti quadratici: $$\begin{array}{l} DEV(Y)=SST=DEV_{totale}=\sum\limits_{i=1}^n(y_i-\overline{y})^2\\ DEV_{regressione}=DEV_{spiegata}=SSR=\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2\\ DEV_{residua}=SSE=\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2\end{array}$$

$DEV(Y)$ o $SST$ (acronimo di Sum Square Total) non è altro che la devianza totale della variabile Y, ossia la somma dei quadrati degli scarti tra i valori osservati $y_i$ e il valore medio $\overline{y}$. Essendo, inoltre, il numeratore della varianza totale, si ha $$s_y^2=VAR(Y)=\frac{DEV(Y)}{n}$$

$DEV_{spiegata}$ o $SSR$ (acronimo di Sum Square Regression) è la devianza spiegata o devianza della regressione, ossia la somma dei quadrati degli scarti tra i valori teorici $\hat{y}_i$ e il valore medio $\overline{y}$. Inoltre, in un modello di regressione lineare semplice, la varianza spiegata coincide con la devianza spiegata: $$VAR_{spiegata}=DEV_{spiegata}$$

$DEV_{residua}$ o $SSE$ (acronimo di Sum Square Error) non è altro che la devianza residua della variabile Y, ossia la somma dei quadrati degli errori che si commettono approssimando il valore osservato $y_i$ con il valore teorico $\hat{y}_i$. La varianza residua o stima della varianza della popolazione, sarà invece $$VAR_{residua}=\frac{DEV_{residua}}{n-2}$$

Si può dimostrare che la devianza totale (come pure la varianza totale) si può decomporre nella somma delle altre due devianze, ossia: $$DEV_{totale}=DEV_{spiegata}+DEV_{residua}$$

Detto ciò possiamo definire un indice che misura la bontà di adattamento del modello ai dati osservati. Si chiama indice di determinazione e la sua formula è: $$R^2=\frac{DEV_{spiegata}}{DEV_{totale}}$$

Per quanto detto, si ha che $0\leq R^2\leq 1$. Maggiore è $R^2$ (e quindi minore è la devianza spiegata) migliore sarà l'adattamento della retta ai dati osservati e maggiore sarà la proporzione di variabilità totale che la retta di regressione stimata riesce a spiegare.

Nel caso di una regressione lineare semplice, si può dimostrare che tale indice di determinazione coincide con il quadrato del coefficiente di correlazione lineare $r$: $$R^2=r^2$$ dove $r$ è dato da: $$r=\frac{COV(X,Y)}{\sqrt{s_x^2\cdot s_y^2}}$$

Seguono alcune importanti proprietà del coefficiente di correlazione $r$:

  • vale sempre $-1\le r\le 1$;
  • se $r=\pm 1$ la correlazione tra $X$ e $Y$ è massima (nel caso $r=+1$ si ha una correlazione diretta, nel caso $r=-1$ si ha una correlazione inversa);
  • se $r=0$ la correlazione tra le due variabili è nulla e quindi si dice che $X$ e $Y$ sono indipendenti;
  • $r^2$ è il coefficiente di determinazione e rappresenta la bontà di adattamento del modello di regressione trovato.

Regressione lineare semplice in R

Nel video ti spiego quali sono i comandi R necessari per condurre un'analisi di regressione lineare semplice e come interpretare i risultati.

Il quaderno degli appunti
Algebra di base

Gli esponenziali

L'esponenziale è una potenza che come base ha un numero $a$ positivo diverso da 1 e come esponente un'espressione che contiene l'incognita $x$ (la ch
Statistica e Probabilità

Tavola della distribuzione normale standard: come leggerla

La tavola della distribuzione normale standard ti permette di calcolare la probabilità a sinistra di un dato quantile o viceversa trovare il valore d
Analisi matematica

Calcolo delle derivate

La teoria dell'analisi matematica ci dice che, a norma di definizione, il calcolo della derivata di una funzione equivale al calcolo del limite del ra