Webtudordimatematica

Test di ipotesi sulla differenza fra 2 medie

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

In molte applicazioni è utile confrontare se due popolazioni, da cui sono estratti due campioni indipendenti (o non appaiati), possono essere ritenute uguali oppure se tra esse si può riscontrare una differenza significativa.

Questi problemi possono essere risolti effettuando un test sulla differenza dei valori medi. Indicati con A e B le due popolazioni e con d l'eventuale differenza da testare tra i rispettivi valori medi, il test che possiamo condurre è uno fra i seguenti tipi: $$a)\begin{cases} H_0: \mu_A-\mu_B=d\\ H_1: \mu_A-\mu_B\neq d\end{cases}\quad b) \begin{cases} H_0: \mu_A-\mu_B\geq d\\ H_1: \mu_A-\mu_B < d\end{cases}\quad c) \begin{cases} H_0: \mu_A-\mu_B\leq d\\ H_1: \mu_A-\mu_B > d\end{cases}$$

Nei casi particolari in cui bisogna verificare se $\mu_1=\mu_2$ o $\mu_1 < \mu_2$ oppure ancora $\mu_1 > \mu_2$ il valore di $d$ sarebbe zero.

Possono verificarsi due casi a seconda la numerosità del campione e la conoscenza o meno della varianza della popolazione.

Statistica test per grandi campioni o popolazioni normali con varianze note

In questo caso si utilizza la statistica test con distribuzione normale: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{Z_{test}=\frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}}\simeq \frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{\frac{s_A^2}{n_A}+\frac{s_B^2}{n_B}}} }$$

La formula precedente può essere usata sia nel caso di popolazioni normali con varianze $\sigma_A^2$ e $\sigma_B^2$ note e sia nel caso di grandi campioni con varianze campionarie $s_A^2$ e $s_A^2$ note.

Fissato un livello di significatività $\alpha$ e letto dalle tavole della distribuzione normale il valore critico corrispondente $z_{1-\alpha}$ o $z_{1-\frac{\alpha}{2}}$ diremo che l'esito del test è

  1. per test bilaterali del tipo a): "si rifiuta l'ipotesi nulla $H_0$ se $|Z_{test}| > z_{1-\frac{\alpha}{2}}$
  2. per test unilaterali del tipo b) e c): "si rifiuta l'ipotesi nulla $H_0$ se $Z_{test}\ \spadesuit\ z_{1-\alpha}$
    dove $\spadesuit$ è il verso presente nell'ipotesi alternativa $H_1$ (< nel tipo b) e > nel tipo c)

 

Statistica test per piccoli campioni estratti da popolazioni con varianze sconosciute

In questo caso si può utilizzare la statistica test con distribuzione t di Student: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{T_{test}=\frac{(\overline{x}_A-\overline{x}_B)-d}{\sqrt{S^2\left (\frac{1}{n_A}+\frac{1}{n_B}\right )}}}$$ dove $S^2$ si chiama varianza congiunta ed è data da: $$S^2=\frac{(n_A-1)\cdot s_A^2+(n_B-1)\cdot s_B^2}{n_A+n_B-2}$$

I gradi di libertà sono $\nu=n_A+n_B-2$.

Fissato un livello di significatività $\alpha$ e letto dalle tavole della distribuzione t di Student il valore critico corrispondente $t_{\alpha}(\nu)$ o $t_{\frac{\alpha}{2}}(\nu)$ diremo che l'esito del test è

  • per test bilaterali del tipo a): "si rifiuta l'ipotesi nulla $H_0$ se $|T_{test}| > t_{\frac{\alpha}{2}}(\nu)$
  • per test unilaterali del tipo b) e c): "si rifiuta l'ipotesi nulla $H_0$ se $T_{test}\ \spadesuit\ t_{\alpha}(\nu)$
    dove $\spadesuit$ è il verso presente nell'ipotesi alternativa $H_1$ (< nel tipo b) e > nel tipo c)

Osserviamo infine che se i dati estratti dalle popolazioni sono dipendenti o appaiati (ad esempio in situazioni in cui viene rilevata una certa caratteristica di un fenomeno prima e dopo un certo trattamento), si procede con un t-test per dati appaiati (paired t-test)

 

Esempio T-test per dati indipendenti

Facciamo riferimento all'esercizio sul test dei dati appaiati, immaginando stavolta che i due sonniferi siano stati assegnati casualmente ai pazienti arruolati nello studio generando due gruppi distinti (indipendenti) di soggetti, il gruppo A e il gruppo B.

Test di ipotesi per la differenza tra due medie con varianza nota

Le ipotesi fondamentali da assumere per eseguire il test sono:

  • Le variabili risposta $Y_A$ e $Y_B$ rispettivamente del gruppo A e B sono variabili con distribuzione normale.
  • La variabilità dei due gruppi è uguale, ossia $\sigma_A=\sigma_B$. Tale ipotesi andrebbe sempre preliminarmente verificata mediante un test F di fisher.

Considerato ciò possiamo formulare il sistema di ipotesi: $$\begin{cases} H_0:\mu_A-\mu_B=0\\ H_1:\mu_A-\mu_B\neq 0\end{cases}$$

Avendo le medie campionarie dei due gruppi di dati, possiamo ricavarci le varianze campionarie corrette $$\begin{array}{l} s_A^2=\frac{0.7^2+1.6^2+0.2^2+\dots + 0^2+2^2-10\cdot 0.75^2}{10-1}=3.2006\\ s_B^2=\frac{1.9^2+0.8^2+1.1^2+\dots + 4.6^2+3.4^2-10\cdot 2.33^2}{10-1}=4.009\end{array}$$ e la varianza congiunta da introdurre nel calcolo della statistica test $$S^2=\frac{(n_A-1)\cdot s_A^2+(n_B-1)\cdot s_B^2}{n_A+n_B-2}=\frac{9\cdot 3.2006+ 9\cdot 4.009}{18}=3.6048$$

Essendo il campione di piccole dimensioni, la statistica test è una variabile con distribuzione t di Student: $$T_{test}=\frac{\overline{x}_A-\overline{x}_B}{\sqrt{S^2\left (\frac{1}{n_A}+\frac{1}{n_B}\right )}}=\frac{0.75-2.33}{\sqrt{3.6048\left (\frac{1}{10}+\frac{1}{10}\right )}}=-1.861$$

Essendo i gradi di libertà $\nu = 18$, il valore critico che ricaviamo dalle tavole della distribuzione t di Student in corrispondeza di $\alpha=0.01$ è $t_{0.025}(18)=2.101$.

Poichè $|T_{test}|=1.861 < t_{0.025}(18)=2.101$ concludiamo dicendo che il test non è significativo e che quindi non c'è sufficiente evidenza per rifiutare l'ipotesi nulla

Qual' è la differenza con lo stesso test eseguito invece per dati appaiati? Supponendo i campioni indipendenti, non abbiamo fatto altro che sovrastimare la varianza al denominatore della statistica test e quindi sottostimato il valore di $T_{test}$. Infatti $$VAR{Y_A-Y_B}=VAR(Y_A)+VAR(Y_B)-2COV(Y_A,Y_B)$$

Per dati appaiati e quindi dipendenti, il termine covarianza è generalmente positivo, mentre per dati indipendenti è nullo.

 

VAI AGLI ESERCIZI

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.