In questa lezione vedremo come calcolare l'intervallo di confidenza per la previsione di un singolo valore della variabile dipendente $Y$ assunto in corrispondenza di uno specifico valore della variabile indipendente $X$ in un modello di regressione lineare semplice.
A tale scopo consideriamo il modello teorico $\hat{Y}=b_0+b_1\hat{X}$ e indichiamo con
- $n$ la numerosità del campione.
- $x_0$ il valore scelto per la variabile $X$.
- $\overline{x}$ la media campionaria degli n valori di $X$
- $\hat{y_0}$ il valore stimato della variabile $Y$ tramite il modello suddetto.
- $s_e$ l'errore standard della stima di $Y$.
- $e_0=y_0-\hat{y_0}$ l'errore che si commette nella stima del valore reale $y_0$.
- $t_{\frac{\alpha}{2},n-2}$ valore critico della distribuzione T di student.
Calcolata la varianza dell'errore di previsione $e_0$ $$\bbox[#ffffff,5px,border:2px solid #ff6600]{Var(e_0)=s_e^2\left[1+\frac{1}{n}+\frac{(x-\overline{x})^2}{\sum_{i=1}^n(x-\overline{x})^2}\right]}\qquad \large(\large\star)$$
gli estremi dell'intervallo di confidenza suddetto si possono calcolare mediante la seguente formula $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\hat{y_0}\pm t_{\frac{\alpha}{2},n-2}\cdot\sqrt{Var(e_0)}}\qquad \large(\large\star\large\star)$$
Esercizio sul calcolo dell'intervallo di confidenza per un singolo valore di $Y$ in un modello di regressione
Nell'ambito della regressione semplice si considerino il modello teorico $y=12+6x$, e i dati campionari: $$s_e=9.67\quad \overline{x}=8\quad n=32\quad \sum_{i=1}^n(x-\overline{x})^2=500$$ Costruite gli intervalli di confidenza a livello $95%$ per la previsione del singolo valore quanto $x=13$.
Calcoliamo innanzitutto il valore stimato $\hat{y_0}$ sostituendo il valore $x=13$ nell'espressione del modello teorico: $$\hat{y_0}=12+6\cdot 13=90$$
Essendo il livello di fiducia $1-\alpha=0.95$, si ha che il livello di significatività o errore di prima specie è $\alpha=0.05$. Dunque, il valore critico letto dalla tavola della distribuzione T di student è $$t_{\frac{\alpha}{2},n-2}=t_{0.025,30}=2.04$$
Adesso tramite la $(\large\star)$ calcoliamo la varianza dell'errore di previsione: $$Var(e_0)=9.67^2\left[1+\frac{1}{32}+\frac{(13-8)^2}{500}\right]=101.11$$
In definitiva, l'intervallo di confidenza per il valore predetto di $Y$ sarà dato dalla $(\large\star\large\star)$: $$90\pm 2.04\cdot\sqrt{101.11}\begin{array}{l} \nearrow\\ \searrow\end{array} \begin{array}{l} 90- 2.04\cdot\sqrt{101.11}=69.46\ \\ \\ 90+ 2.04\cdot\sqrt{101.11}=110.53\end{array}$$