Il test del Chi-quadrato (in simboli $\chi^2$) è un test statistico non parametrico e si utilizza per valutare l'ipotesi di connessione o associazione tra due variabili qualitative X e Y. Si chiama così perché si basa sul calcolo del Chi-quadrato, un indice di connessione che ti ho descritto approfonditamente in questa lezione.
Ipotesi del test del Chi-quadrato
Le ipotesi nulla e alternativa che si sottopongono a verifica sono:
$H_0$: X e Y sono indipendenti o non connesse (la loro differenza è dovuta al caso)
$H_1$: X e Y sono dipendenti o connesse (la loro differenza è dovuta al campione)
Come succede per ogni test di ipotesi, per poter capire se accettare o rifiutare l'ipotesi e dire se i caratteri X e Y sono indipendenti statisticamente o meno è necessario calcolare la statistica test che in questo caso ha distribuzione del chi-quadrato.
Procedura per condurre il test del Chi-quadrato
Ti elenco i passi che devi seguire per condurre un test di indipendenza del Chi-quadrato per poi svolgere un esercizio numerico.
Calcolare il Chi-quadrato
Ti ho spiegato la procedura dettagliata in questo articolo. Vallo a leggere per capire come calcolare la statistica test $\chi^2$.
Fissare un livello di significatività $\alpha$
Il livello di significatività rappresenta l'errore che si commette se si rifiutasse erroneamente l'ipotesi nulla. I valori di $\alpha$ che di solito si utilizzano sono 0.05, 0.01 e 0.001 che corrispondono rispettivamente a 5%, 1% e 0.1%.
Calcolare i gradi di libertà
I gradi di libertà (abbreviato g.d.l) di una distribuzione Chi-quadrato coincidono con il prodotto tra il numero di righe meno 1 e il numero di colonne meno 1. In formule: $$\nu = (r-1)*(c-1)$$
Calcola il valore critico o quantile della distribuzione Chi-quadrato
Si intende quel valore assunto dalla distribuzione Chi-quadrato che separa la regione di accettazione da quella di rifiuto e dipende sia dal livello di significatività $\alpha$, sia dai gradi di libertà. Si indica con $\chi_{\alpha}^2(\nu)$ e si ottiene dalla lettura della tavola della distribuzione del Chi-quadrato (vedi esercizio in basso per i dettagli).
Prendere una decisione
La regola empirica è la seguente: rifiuto l'ipotesi nulla H0 se il valore della statistica test $\chi^2$ è maggiore del quantile di riferimento $\chi_{\alpha}^2(\nu)$, in simboli: $$\chi^2 > \chi_{\alpha}^2(\nu)$$
Adesso applico la procedura descritta a un caso pratico. Per semplicità mi ricollego all'esercizio svolto nell'articolo del Chi-quadrato dove le variabili qualitative prese in esame erano:
- X: variabile SESSO le cui modalità sono "maschio" (M) e "femmina" (F).
- Y: variabile PROFESSIONE le cui modalità sono "impiegato", "operaio" e "libero professionista".
Questa invece è la tabella di contingenza:
Il Chi-quadrato valeva circa 4,84. Poniamo $\alpha=0,05$ e calcoliamo i gradi di libertà che per una tabella 2x3 è pari a $$\nu=(2-1)\cdot (3-1)=2$$
A questo punto leggiamo la tavola della distribuzione del chi-quadrato per determinare il valore critico $\chi_{0.05}^2(2)$ (chi-quadrato a livello $\alpha=0.05$ e g.d.l=2):
Incrociando la riga contenente i gradi di libertà con la colonna contenente il livello di significatività si trova: $\chi_{0.05}^2(2)=5.991$. La regola per rifiutare $H_0$ è: rifiuto $H_0$ se $\chi^2>\chi_{0.05}^2(2)$. Dato che $\chi^2=4.84$ non è maggiore di \chi_{0.05}^2(2)=5.991 non rifiuto $H_0$, ossia X e Y si possono considerare dipendenti. In altre parole diremo che il tipo di professione svolta dipende dal genere.
Questo appena descritto è solo uno dei due modi per trovare l'esito del test del Chi-quadrato. Infatti, in alternativa alla lettura della tavola statistica è possibile prendere una decisione del test confrontando il valore del livello di significatività scelto con quello del p-value del test. Continua a leggere per i dettagli.
Trovare l'esito del test mediante il calcolo del p-value
In questo articolo ti ho parlato più in dettaglio del p-value e di come calcolarlo. Una volta calcolato si segue la seguente regola per decidere se rifiutare o accettare l'ipotesi nulla:
- se p-value<$\alpha$ rifiuto $H_0$
- se p-value>$\alpha$ accetto $H_0$
Di solito però, il p-value non viene calcolato manualmente ma viene calcolato automaticamente nel caso in cui si utilizza un software statistico. Qui in basso ti ho lasciato un video YouTube in cui ti mostro come eseguire un test del chi-quadrato con RStudio.