Webtudordimatematica

Intervalli di confidenza per la differenza fra 2 medie

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Il calcolo dell'intervallo di confidenza per la differenza tra due medie può essere utile quando, ad esempio, si voglia stabilire se le medie di due popolazioni sono diverse, oppure si vuole stimare la grandezza della differenza fra le medie di due popolazioni

Caso varianze $\sigma_1^2$ e $\sigma_2^2$ note

Per studiare la differenza fra le medie di due popolazioni, ci appoggiamo alla seguente proprietà:

Se due variabili aleatorie indipendenti $X_1$ e $X_2$ hanno rispettivamente le medie $\mu_1$ e $\mu_2$ e le varianze $\sigma_1^2$ e $\sigma_2^2$, allora la distribuzione della loro differenza ha la media $\mu_1-\mu_2$ e la varianza $\sigma_1^2+\sigma_2^2$.

Infatti, dalle proprietà del valor medio e della varianza si ha: $$\begin{array}{l} E(X_1-X_2)=E(X_1)-E(X_2)=\mu_1-\mu_2\\ VAR(X_1-X_2)=VAR(X_1)+VAR(X_2)=\sigma_1^2+\sigma_2^2\end{array}$$

Supponiamo di estrarre da due popolazioni aventi distribuzione normale campioni di ampiezza rispettivamente $n_1$ e $n_2$; indicando con $\overline{X}_1$ e $\overline{X}_2$ le due medie campionarie, ricordando le proprietà della distribuzione della media campionaria, possiamo affermare che $$\begin{eqnarray} &\overline{X}_1&\sim N\left(\mu_1,\frac{\sigma_1^2}{n_1}\right)\\ &\overline{X}_2&\sim N\left(\mu_1,\frac{\sigma_2^2}{n_2}\right)\end{eqnarray}$$

Possiamo allora dire che la statistica $$Z=\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$ ha distribuzione normale standard

Procedendo come fatto per l'intervallo di confidenza per la media, possiamo asserire con probabilità $1-\alpha$, che è soddisfatta la disuguaglianza $$-z_\frac{\alpha}{2} < \frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} < z_\frac{\alpha}{2}$$

Da quest'ultima, risolvendo rispetto a $\mu_1-\mu_2$ si ricava $$\overline{X}_1-\overline{X}_2-z_\frac{\alpha}{2}\cdot\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} < \mu_1-\mu_2 < \overline{X}_1-\overline{X}_2+z_\frac{\alpha}{2}\cdot\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$

Pertanto, una volta estratti i campioni di ampiezza $n_1$ e $n_2$, e calcolati i valori delle medie campionarie $\overline{x}_1$ e $\overline{x}_2$ dei due campioni, si ottiene l'intervallo di confidenza per la differenza delle medie $\mu_1-\mu_2$ con grado di fiducia $(1-\alpha)\cdot 100\%$

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{x}_1-\overline{x}_2-z_\frac{\alpha}{2}\cdot\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} < \mu_1-\mu_2 < \overline{x}_1-\overline{x}_2+z_\frac{\alpha}{2}\cdot\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$

Tale formula vale anche per le popolazioni non normali, purchè i campioni estratti siano abbastanza grandi ($n_1,n_2\ge 30$). Chiaramente, se le popolazioni da cui provengono i campioni hanno distribuzione normale, la formula appena vista vale qualsiasi sia la dimensione dei campioni estratti.

Se le varianze $\sigma_1^2$ e $\sigma_2^2$ delle popolazioni non sono note, nel caso di grandi campioni possono essere sostituite con le varianze campionarie $s_1^2$ e $s_2^2$.

Calcolo intervallo di confidenza della differenza tra due medie con varianze note

Un campione di 200 lampadine della marca A ha mostrato una durata media di 1500 ore ed uno scarto quadratico medio di 100 ore; un campione di 150 lampadine della marca B ha mostrato invece una durata media di 1300 ore ed uno scarto quadratico medio di 90 ore. Trovare gli intervalli di confidenza al 95% e al 99% per la differenza di durata di tutte le lampadine delle marche A e B.

Svolgimento

I dati del problema sono i seguenti: $$\begin{array}{lll} n_1=200 & \overline{x}_1=1500 & s_1=100\\ n_2=150 & \overline{x}_2=1300 & s_2=90 \end{array}$$

Per il grado di fiducia del 95% il valore critico è $z_\frac{\alpha}{2}=1.96$ (vedi qui come calcolarlo) e applicando la formula esposta sopra sostituendo le varianze della popolazione con le varianze campionarie si ottiene l'intervallo di confidenza $$\begin{eqnarray} 1500-1300-1.96\cdot\sqrt{\frac{100^2}{200}+\frac{90^2}{150}} < &\mu_1-\mu_2& < 1500-1300+1.96\cdot\sqrt{\frac{100^2}{200}+\frac{90^2}{150}}\\ 180 < &\mu_1-\mu_2& < 220\end{eqnarray}$$

Per il grado di fiducia del 99% il valore critico è $z_\frac{\alpha}{2}=2.576$ e si ottiene l'intervallo di confidenza $$\begin{eqnarray} 1500-1300-2.576\cdot\sqrt{\frac{100^2}{200}+\frac{90^2}{150}} < &\mu_1-\mu_2& < 1500-1300+2.576\cdot\sqrt{\frac{100^2}{200}+\frac{90^2}{150}}\\ 173 < &\mu_1-\mu_2& < 227\end{eqnarray}$$

Caso varianze $\sigma_1^2$ e $\sigma_2^2$ incognite

Abbiamo visto che nel caso in cui le varianze delle due popolazioni siano incognite, supposto di avere a che fare con grandi campioni ($n_1,n_2\ge 30$), possiamo sostituire le varianze della popolazione con quelle campionarie nella formula di calcolo dell'intervallo di confidenza.

Nel caso di tratti invece di piccolo campioni e le varianze non siano note, per stimare la differenza fra le medie delle due popolazioni si può far ricorso alla distribuzione $t$, ma occorre che siano verificate le seguenti ipotesi:

  1. le due popolazioni $X_1$ e $X_2$ devono avere distribuzione normale;
  2. le varianze delle due popolazioni devono essere uguali.

Sotto queste ipotesi, dalle varianze campionarie $S_1^2$ e $S_2^2$, che si calcolano dai campioni indipendenti estratti dalle due popolazioni, possiamo ricavarci una stima congiunta della varianza comune, calcolando la media ponderata delle due varianze campionarie con la seguente formula:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{S^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}$$

Per piccoli campioni ($n < 30$), e sotto le due ipotesi di cui sopra, si dimostra che la statistica $$T=\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{S^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$ ha distribuzione t con $\nu=n_1+n_2-2$ gradi di libertà.

Pertanto, analogamente a quello fatto nel caso delle varianze note, una volta estratti i campioni di ampiezza rispettivamente $n_1$ e $n_2$, e calcolati i valori delle medie campionarie $\overline{x}_1$ e $\overline{x}_2$, i valori delle varianze campionarie $s_1^2$ e $s_2^2$ e il valore della stima congiunta della varianza $s^2$ si ottiene l'intervallo di confidenza per la differenza delle medie $\mu_1-\mu_2$ con grado di fiducia $(1-\alpha)\cdot 100\%$, per piccoli campioni estratti da due popolazioni normali con la stessa varianza

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{x}_1-\overline{x}_2-t_\frac{\alpha}{2}\cdot\sqrt{s^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)} < \mu_1-\mu_2 < \overline{x}_1-\overline{x}_2+t_\frac{\alpha}{2}\cdot\sqrt{s^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$

Calcolo intervallo di confidenza della differenza tra due medie con varianze incognite e piccoli campioni

Nella tabella qui sotto sono riportate le lunghezze in cm di due campioni A e B di oggetti dello stesso tipo prodotti da due macchine diverse

Tabella delle lunghezze dei due campioni con cui calcolare l'intervallo di confidenza

Calcolare l'intervallo di confidenza fra le medie con grado di fiducia del 95%, supponendo che le popolazioni da cui provengono i campioni abbiano distribuzione normale con la stessa varianza.

Svolgimento

In base ai dati della tabella si ha: $$\begin{array}{lll} n_1=5 & \overline{x}_1=8.23 & s_1^2=0.01575\\ n_2=7 & \overline{x}_2=7.94 & s_2^2=0.00910 \end{array}$$

La stima congiunta della varianza è: $$s^2=\frac{4\cdot 0.01575+6\cdot 0.00910}{5+7-2}=0.01176$$

I gradi di libertà della distribuzione $t$ sono: $$\nu=n_1+n_2-2=5+7-2=10$$

Per il grado di fiducia del 95% il valore critico è $t_{0.025}=2.228$ (vedi qui come calcolarlo) e con la formula sopra esposta si trova l'intervallo di confidenza seguente: $$\begin{eqnarray} 8.23-7.94-2.228\sqrt{0.01176\left(\frac{1}{5}+\frac{1}{7}\right)}< &\mu_1-\mu_2& < 8.23-7.94+2.228\sqrt{0.01176\left(\frac{1}{5}+\frac{1}{7}\right)}\\ 0.148 < &\mu_1-\mu_2& < 0.432\end{eqnarray}$$

Vai agli esercizi

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.