Un caso particolarmente importante di stima della media per una popolazione non normale e per grandi campioni è quello di una popolazione bernulliana. Infatti l'intervallo di confidenza per la proporzione della popolazione è una stima per il valore del parametro $p$ (probabilità di successo), che rappresenta la frequenza relativa o proporzione con cui una certa caratteristica si presenta negli individui della popolazione.
Si estraggono campioni di ampiezza $n$ dalla popolazione e si considera la proporzione campionaria $\overline{P}$. Se tale proporzione non è data bisogna calcolarla con la formula: $$\overline{P}=\frac{X}{n}$$ dove $X$ è il numero di volte in cui la caratteristica osservata si presenta nel campione.
Questa proporzione campionaria è uno stimatore corretto della proporzione $p$ della popolazione e viene usato come stima puntuale
Abbiamo visto in questa lezione che , quando si ha sia $np\ge 5$ che $n(1-p)\ge 5$, la distribuzione binomiale di parametri $n$ e $p$ può essere approssimata da una distribuzione normale avente media $\mu=np$ e varianza $\sigma^2=np(1-p)$. In altri termini la statistica $$Z=\frac{\overline{P}-p}{\sqrt{\frac{p(1-p)}{n}}}$$ ha approssimativamente distribuzione normale standard per $n$ grande ($n\ge 30$).
Quindi, per valori di $n$ grandi, usando l'approssimazione normale per la distribuzione binomiale, possiamo affermare che: $$P\left(-z_{\frac{\alpha}{2}} < Z < z_{\frac{\alpha}{2}}\right)=1-\alpha$$ ossia, con probabilità $1-\alpha$, vale la disuguaglianza $$-z_{\frac{\alpha}{2}} < \frac{\overline{P}-p}{\sqrt{\frac{p(1-p)}{n}}} < z_{\frac{\alpha}{2}}$$
Per ricavare l'intervallo di confidenza per $p$ occorre risolvere la disuguaglianza precendere rispetto a $p$ sostituendo nell'espressione $\sqrt{\frac{p(1-p)}{n}}$, che compare al denominatore, la quantità $p$ con $\overline{P}$.
Inoltre, una volta estratto il campione di ampiezza $n$ ( sufficientemente grande $n\ge 30$) e calcolato il valore di $\overline{p}$ della proporzione del campione, si ottiene l'intervallo di confidenza per la proporzione $p$ con grado di fiducia $(1-\alpha)\cdot 100%$
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{p}-z_{\frac{\alpha}{2}}\cdot\sqrt{\frac{\overline{p}(1-\overline{p})}{n}} < p < \overline{p}+z_{\frac{\alpha}{2}}\cdot\sqrt{\frac{\overline{p}(1-\overline{p})}{n}}}$$
Il valore critico $z_{\frac{\alpha}{2}}$ viene scelto con la stessa regola già indicata per l'intervallo di confidenza per la media
Approssimazioni del calcolo dell'intervallo di confidenza per la proporzione
Osserviamo che per ottenere l'intervallo di confidenza di cui sopra, sono state fatte 3 approssimazioni:
- l'approssimazione normale della binomiale;
- l'approssimazione di $p$ con $\overline{p}=\frac{x}{n}$, nell'espressione $\sqrt{\frac{p(1-p)}{n}}$;
- non è stata fatta la correzione di continuità per l'approssimazione normale.
Per verificare le condizioni di applicabilità dell'approssimazione della binomiale con la normale (punti 1 e 2), ossia $np\ge 5$ e $n(1-p)\ge 5$, possiamo solo verificare che sia $n\overline{p}\ge 5$ e $n(1-\overline{p})\ge 5$; questa verifica si può fare solo dopo aver effettuato il campionamento: se le condizioni precedenti non sono soddisfatte, il risultato è privo di valore, e occorre ripetere il campionamento aumentando l'ampiezza $n$ del campione.
Calcolo dell'intervallo di confidenza per la proporzione
Un campione di 400 persone a cui è stato somministrato un dato vaccino, 136 di esse hanno avuto effetti collaterali di un certo rilievo. Determinare un intervallo di confidenza con grado di fiducia del 95% per la proporzione della popolazione che soffre di tali effetti collaterali.
Svolgimento
Nel campione di $n=400$ persone la proporzione campionaria è $$\overline{p}=\frac{136}{400}=0.34$$
Osserviamo che le condizioni per poter usare l'approssimazione della binomiale con la normale sono verificate, essendo $$n\overline{p}=400\cdot 0.34=135\ge 5\quad\mbox{e}\quad n(1-\overline{p})=400\cdot 0.66=264\ge 5$$
Per il grado di fiducia del 95% il valore critico è $z_\frac{\alpha}{2}=1.96$ (vedi qui come calcolarlo) e applicando la formula esposta sopra otteniamo l'intervallo di confidenza per la proporzione: $$\begin{eqnarray} 0.34-1.96\cdot\sqrt{\frac{0.34\cdot(1-0.34)}{400}} < &p& < 0.34+1.96\cdot\sqrt{\frac{0.34\cdot(1-0.34)}{400}}\\ 0.29 < &p& < 0.39\end{eqnarray}$$