In molte applicazioni è utile confrontare se due popolazioni, da cui sono estratti due campioni indipendenti (o non appaiati), possono essere ritenute uguali oppure se tra esse si può riscontrare una differenza significativa.
Questi problemi possono essere risolti effettuando un test sulla differenza dei valori medi. Indicati con A e B le due popolazioni e con d l'eventuale differenza da testare tra i rispettivi valori medi, il test che possiamo condurre è uno fra i seguenti tipi: $$a)\begin{cases} H_0: \mu_A-\mu_B=d\\ H_1: \mu_A-\mu_B\neq d\end{cases}\quad b) \begin{cases} H_0: \mu_A-\mu_B\geq d\\ H_1: \mu_A-\mu_B < d\end{cases}\quad c) \begin{cases} H_0: \mu_A-\mu_B\leq d\\ H_1: \mu_A-\mu_B > d\end{cases}$$
Nei casi particolari in cui bisogna verificare se $\mu_1=\mu_2$ o $\mu_1 < \mu_2$ oppure ancora $\mu_1 > \mu_2$ il valore di $d$ sarebbe zero.
Possono verificarsi due casi a seconda la numerosità del campione e la conoscenza o meno della varianza della popolazione.
Statistica test per grandi campioni o popolazioni normali con varianze note
In questo caso si utilizza la statistica test con distribuzione normale: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{Z_{test}=\frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}}\simeq \frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{\frac{s_A^2}{n_A}+\frac{s_B^2}{n_B}}} }$$
La formula precedente può essere usata sia nel caso di popolazioni normali con varianze $\sigma_A^2$ e $\sigma_B^2$ note e sia nel caso di grandi campioni con varianze campionarie $s_A^2$ e $s_A^2$ note.
Fissato un livello di significatività $\alpha$ e letto dalle tavole della distribuzione normale il valore critico corrispondente $z_{1-\alpha}$ o $z_{1-\frac{\alpha}{2}}$ diremo che l'esito del test è
- per test bilaterali del tipo a): "si rifiuta l'ipotesi nulla $H_0$ se $|Z_{test}| > z_{1-\frac{\alpha}{2}}$
- per test unilaterali del tipo b) e c): "si rifiuta l'ipotesi nulla $H_0$ se $Z_{test}\ \spadesuit\ z_{1-\alpha}$
dove $\spadesuit$ è il verso presente nell'ipotesi alternativa $H_1$ (< nel tipo b) e > nel tipo c)
Statistica test per piccoli campioni estratti da popolazioni con varianze sconosciute
In questo caso si può utilizzare la statistica test con distribuzione t di Student: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{T_{test}=\frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{S^2\left (\frac{1}{n_A}+\frac{1}{n_B}\right )}}}$$ dove $S^2$ si chiama varianza congiunta ed è data da: $$S^2=\frac{(n_A-1)\cdot s_A^2+(n_B-1)\cdot s_B^2}{n_A+n_B-2}$$
I gradi di libertà sono $\nu=n_A+n_B-2$.
Fissato un livello di significatività $\alpha$ e letto dalle tavole della distribuzione t di Student il valore critico corrispondente $t_{\alpha}(\nu)$ o $t_{\frac{\alpha}{2}}(\nu)$ diremo che l'esito del test è
- per test bilaterali del tipo a): "si rifiuta l'ipotesi nulla $H_0$ se $|T_{test}| > t_{\frac{\alpha}{2}}(\nu)$
- per test unilaterali del tipo b) e c): "si rifiuta l'ipotesi nulla $H_0$ se $T_{test}\ \spadesuit\ t_{\alpha}(\nu)$
dove $\spadesuit$ è il verso presente nell'ipotesi alternativa $H_1$ (< nel tipo b) e > nel tipo c)
Osserviamo infine che se i dati estratti dalle popolazioni sono dipendenti o appaiati (ad esempio in situazioni in cui viene rilevata una certa caratteristica di un fenomeno prima e dopo un certo trattamento), si procede con un t-test per dati appaiati (paired t-test)
Esempio T-test per dati indipendenti
Facciamo riferimento all'esercizio sul test dei dati appaiati, immaginando stavolta che i due sonniferi siano stati assegnati casualmente ai pazienti arruolati nello studio generando due gruppi distinti (indipendenti) di soggetti, il gruppo A e il gruppo B.
Le ipotesi fondamentali da assumere per eseguire il test sono:
- Le variabili risposta $Y_A$ e $Y_B$ rispettivamente del gruppo A e B sono variabili con distribuzione normale.
- La variabilità dei due gruppi è uguale, ossia $\sigma_A=\sigma_B$. Tale ipotesi andrebbe sempre preliminarmente verificata mediante un test F di fisher.
Considerato ciò possiamo formulare il sistema di ipotesi: $$\begin{cases} H_0:\mu_A-\mu_B=0\\ H_1:\mu_A-\mu_B\neq 0\end{cases}$$
Avendo le medie campionarie dei due gruppi di dati, possiamo ricavarci le varianze campionarie corrette $$\begin{array}{l} s_A^2=\frac{0.7^2+1.6^2+0.2^2+\dots + 0^2+2^2-10\cdot 0.75^2}{10-1}=3.2006\\ s_B^2=\frac{1.9^2+0.8^2+1.1^2+\dots + 4.6^2+3.4^2-10\cdot 2.33^2}{10-1}=4.009\end{array}$$ e la varianza congiunta da introdurre nel calcolo della statistica test $$S^2=\frac{(n_A-1)\cdot s_A^2+(n_B-1)\cdot s_B^2}{n_A+n_B-2}=\frac{9\cdot 3.2006+ 9\cdot 4.009}{18}=3.6048$$
Essendo il campione di piccole dimensioni, la statistica test è una variabile con distribuzione t di Student: $$T_{test}=\frac{\overline{x}_A-\overline{x}_B}{\sqrt{S^2\left (\frac{1}{n_A}+\frac{1}{n_B}\right )}}=\frac{0.75-2.33}{\sqrt{3.6048\left (\frac{1}{10}+\frac{1}{10}\right )}}=-1.861$$
Essendo i gradi di libertà $\nu = 18$, il valore critico che ricaviamo dalle tavole della distribuzione t di Student in corrispondeza di $\alpha=0.01$ è $t_{0.025}(18)=2.101$.
Poichè $|T_{test}|=1.861 < t_{0.025}(18)=2.101$ concludiamo dicendo che il test non è significativo e che quindi non c'è sufficiente evidenza per rifiutare l'ipotesi nulla
Qual' è la differenza con lo stesso test eseguito invece per dati appaiati? Supponendo i campioni indipendenti, non abbiamo fatto altro che sovrastimare la varianza al denominatore della statistica test e quindi sottostimato il valore di $T_{test}$. Infatti $$VAR{Y_A-Y_B}=VAR(Y_A)+VAR(Y_B)-2COV(Y_A,Y_B)$$
Per dati appaiati e quindi dipendenti, il termine covarianza è generalmente positivo, mentre per dati indipendenti è nullo.