NOTA! Questo sito utilizza i cookie e tecnologie simili.

Se non si modificano le impostazioni del browser, l'utente accetta. Per saperne di piu'

Approvo

Test chi-quadro di indipendenza

Il calcolo del Chi-Quadro (in simboli $\chi^2$) in un test statistico non parametrico, serve per verificare se la differenza tra frequenze osservate $n_{ij}$ e frequenze attese $N_{ij}$ di due caratteri sia dovuto al caso o alla provenienza e al tipo del campione estratto.

Il test statistico consiste, infatti, nel sottoporre a verifica le ipotesi nulla $H_0$ contro l'ipotesi alternativa $H_1$: $$\begin{eqnarray} H_0&:&\mbox{i caratteri sono indipendenti (la loro differenza è dovuta al caso)}\\ H_1&:&\mbox{i caratteri sono dipendenti (la loro differenza è dovuta al campione)}\end{eqnarray}$$

Nella pratica, si dispone di una tabella con $r$ righe e $c$ colonne in cui sono presenti le frequenze osservate $n_{ij}$ (ad esempio $n_{12}$ è la frequenza osservata di riga 1 e colonna 2) e le frequenze marginali (frequenze totali di riga $n_{i\cdot}$ e di colonna $n_{\cdot j}$).

Diamo subito un esempio.

Supponiamo di avere la seguente matrice di dati con righe $r=2$ e colonne $c=3$:

Distribuzione di frequenza doppia con un carattere qualitativo e un carattere quantitativo

$n_{1\cdot}=4$, $n_{2\cdot}=5$ sono le frequenze marginali di riga (ovvero le somma delle frequenze attese per le righe 1 e 2); $n_{\cdot 1}=4$, $n_{\cdot 2}=4$, $n_{\cdot 3}=1$ sono le frequenze marginali di colonna (ovvero le somme delle frequenze attese per le colonne 1, 2 e 3); e $n=9$ è il totale di tutte le frequenze.

Vediamo come procedere per calcolare il chi-quadro e decidere se il sesso incide sulla professione oppure no.

  1. Calcoliamo le frequenze attese $N_{ij}$ mediante la seguente formula: $$N_{ij}=\frac{n_{i\cdot}\cdot n_{\cdot j}}{n}$$ Nello specifico avremo: $$\begin{eqnarray} N_{11}&=& \frac{n_{1\cdot}\cdot n_{\cdot 1}}{n}=\frac{4\cdot 4}{9}=1.78\\ N_{12}&=&\frac{n_{1\cdot}\cdot n_{\cdot 2}}{n}=\frac{4\cdot 4}{9}=1.78\\ N_{13}&=&\frac{n_{1\cdot}\cdot n_{\cdot 3}}{n}=\frac{4\cdot 1}{9}=0.44\\ N_{21}&=&\frac{n_{2\cdot}\cdot n_{\cdot 1}}{n}=\frac{5\cdot 4}{9}=2.22\\ N_{22}&=&\frac{n_{2\cdot}\cdot n_{\cdot 2}}{n}=\frac{5\cdot 4}{9}=2.22\\ N_{23}&=&\frac{n_{2\cdot}\cdot n_{\cdot 3}}{n}=\frac{5\cdot 1}{9}=0.56\end{eqnarray}$$
  2. Calcoliamo i gradi di libertà $\nu$ $$\nu=(r-1)\cdot(c-1)=(2-1)\cdot(3-1)=1\cdot 2=2$$
  3. Calcoliamo il chi-quadro mediante la formula:

    $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{\chi^2=\sum\limits_i^r\sum\limits_j^c\frac{(n_{ij}-N_{ij})^2}{N_{ij}}}$$

    Espandendo le sommatorie e sostituendo i numeri otteniamo: $$\begin{eqnarray} \chi^2&=&\frac{(n_{11}-N_{11})^2}{N_{11}}+\frac{(n_{12}-N_{12})^2}{N_{12}}+\frac{(n_{13}-N_{13})^2}{N_{13}}\\ &+&\frac{(n_{21}-N_{21})^2}{N_{21}}+\frac{(n_{22}-N_{22})^2}{N_{22}}+\frac{(n_{23}-N_{23})^2}{N_{23}}=\\ &=&\frac{(3-1.78)^2}{1.78}+\frac{(1-1.78)^2}{1.78}+\frac{(0-0.44)^2}{0.44}+\\ &+&\frac{(1-2.22)^2}{2.22}+\frac{(3-2.22)^2}{2.22}+\frac{(1-0.56)^2}{0.56}=2.91\end{eqnarray}$$

A questo punto, per verificare se accettare o rifiutare l'ipotesi nulla $H_0$ posta in precedenza, si calcola il p-value (brevemente indicato con $p$) tenendo in considerazione il valore del chi-quadro ottenuto $\chi^2=2.91$.

Se $p\le 0.5$ vuol dire che si ha soltato il 5% di probabilità che il tipo di lavoro non dipenda dal sesso e il 95% di probabilità che invece i due caratteri siano dipendenti tra loro: in questo caso $H_0$ viene rifiutata; in alternativa, cioè se $p>0.5$ si accetta $H_0$.

Dato che l'indice $\chi^2$ dipende dalla numerosità $n$ della popolazione, possiamo calcolare altri indici di connessione (o di indipendenza) che si svincolano da quest'ultimo. Uno di questi è l'indice $V$ di Cramer:

$$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{V=\sqrt{\frac{\chi^2/n}{min(r,c)-1}}}$$

dove $min(r,c)$ è il minimo tra il numero di righe e il numero di colonne. Nel nostro caso si ha: $$V=\sqrt{\frac{2.91/9}{min(2,3)-1}}=\sqrt{\frac{2.91/9}{2-1}}=\sqrt{\frac{2.91}{9}}=0.57$$

Questo vuol dire che i due caratteri (sesso e tipo di lavoro) hanno grado di associazione del 57%.

Infine, esistono altri indici di associazione che, oltre a misurare il grado di associazione tra i caratteri, misurano anche il verso della relazione: stiamo parlando dell'indice gamma di Goodman (utilizzato se i valori in tabella sono pochi) e dell'indice di Sperman (utilizzato se i valori in tabella sono più di 11).

Letto 34 volte

Effettua il LOGIN al sito per aggiungere commenti oppure REGISTRATI se non hai ancora un account.

Seguimi sui social

Accesso utenti