Intervalli di confidenza per la differenza tra 2 proporzioni

Il calcolo dell'intervallo di confidenza per la differenza tra due proporzioni può essere utile quando, ad esempio, si vuole confrontare due gruppi di età, due gruppi di diverso sesso o due gruppi diagnostici rispetto alla proporzione di coloro che possiedono una qualche caratteristica di interesse.

Uno stimatore puntuale e corretto della differenza fra le proporzioni $p_1$ e $p_2$ di due popolazioni è rappresentato dalla differenza fra le proporzioni campionarie $\overline{p}_1$ e $\overline{p}_2$.

Se, come abbiamo visto per l'intervallo di confidenza per la proporzione, le ampiezze $n_1$ e $n_2$ dei campioni sono grandi ($n_1,n_2\ge 30$) e le proporzioni delle popolazioni non sono troppo vicine a 0 o a 1 (cioè sono soddisfatte le condizioni del tipo $np\ge 5$ e $n(1-p)\ge 5$), si può ricorrere all'approssimazione della distribuzione binomiale con la distribuzione normale per ricavare l'intervallo di confidenza per la differenza tra due proporzioni.

Sotto le ipotesi suddette, si può dimostrare che la statistica $$Z=\frac{(\overline{P}_1-\overline{P}_2)-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}}$$ ha distribuzione normale standard

Procedendo come fatto per l'intervallo di confidenza per la proporzione, approssimando le quantità $p_1$ e $p_2$ che compaiono al denominatore della precedente espressione con le proporzioni campionarie $\overline{p}_1=\frac{x_1}{n_1}$ e $\overline{p}_2=\frac{x_2}{n_2}$, si può ricavare il seguente intervallo di confidenza per la differenza tra due proporzioni $p_1-p_2$ con grado di fiducia $(1-\alpha)\cdot 100\%$, valido per grandi campioni

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\begin{array}{l}
\overline{p}_1-\overline{p}_2-z_\frac{\alpha}{2}\cdot\sqrt{\frac{\overline{p}_1(1-\overline{p}_1)}{n_1}+\frac{\overline{p}_2(1-\overline{p}_2)}{n_2}},\\
\overline{p}_1-\overline{p}_2+z_\frac{\alpha}{2}\cdot\sqrt{\frac{\overline{p}_1(1-\overline{p}_1)}{n_1}+\frac{\overline{p}_2(1-\overline{p}_2)}{n_2}}\end{array}}$$

Il valore critico $z_\frac{\alpha}{2}$ viene scelto con la stessa regola già indicata per l'intervallo di confidenza per la media, nel caso di grandi campioni (vedi qui come calcolarlo).

Esempio

Calcolo intervallo di confidenza per la differenza tra due proporzioni per grandi campioni

In un campione casuale di 600 adolescenti e 400 adulti che seguono un certro programma televisivo, 300 adolescenti e 100 adulti hanno espresso un parere favorevole al programma stesso. Trovare l'intervallo di confidenza al 95% per la differenza tra le due proporzioni degli adulti favorevoli e degli adolescenti favorevoli al programma.

Svolgimento

I dati del problema sono i seguenti: $$\overline{p}_1=\frac{300}{600}=0.5 \quad \overline{p}_2=\frac{100}{400}=0.25$$

Per il grado di fiducia del 95% il valore critico è $z_\frac{\alpha}{2}=1.96$ (vedi qui come calcolarlo) e applicando la formula esposta sopra si ottiene l'intervallo di confidenza $$\begin{eqnarray} 0.5-0.25-1.96\cdot\sqrt{\frac{0.5\cdot 0.5}{600}+\frac{0.25\cdot 0.75}{400}} < &p_1-p_2& < 0.5-0.25+1.96\cdot\sqrt{\frac{0.5\cdot 0.5}{600}+\frac{0.25\cdot 0.75}{400}}\\ 0.19 < &p_1-p_2& < 0.31\end{eqnarray}$$

Vai alla sezione con gli esercizi svolti sul calcolo degli intervalli di confidenza