Webtudordimatematica

Test chi-quadro di indipendenza

Il calcolo del Chi-Quadro (in simboli $\chi^2$) in un test statistico non parametrico, serve per verificare se la differenza tra frequenze osservate $n_{ij}$ e frequenze attese $N_{ij}$ di due caratteri sia dovuto al caso o alla provenienza e al tipo del campione estratto.

Il test statistico consiste, infatti, nel sottoporre a verifica le ipotesi nulla $H_0$ contro l'ipotesi alternativa $H_1$: $$\begin{eqnarray} H_0&:&\mbox{i caratteri sono indipendenti (la loro differenza è dovuta al caso)}\\ H_1&:&\mbox{i caratteri sono dipendenti (la loro differenza è dovuta al campione)}\end{eqnarray}$$

Nella pratica, si dispone di una tabella con $r$ righe e $c$ colonne in cui sono presenti le frequenze osservate $n_{ij}$ (ad esempio $n_{12}$ è la frequenza osservata di riga 1 e colonna 2) e le frequenze marginali (frequenze totali di riga $n_{i\cdot}$ e di colonna $n_{\cdot j}$).

Diamo subito un esempio.

Supponiamo di avere la seguente matrice di dati con righe $r=2$ e colonne $c=3$:

Distribuzione di frequenza doppia con un carattere qualitativo e un carattere quantitativo

$n_{1\cdot}=4$, $n_{2\cdot}=5$ sono le frequenze marginali di riga (ovvero le somma delle frequenze attese per le righe 1 e 2); $n_{\cdot 1}=4$, $n_{\cdot 2}=4$, $n_{\cdot 3}=1$ sono le frequenze marginali di colonna (ovvero le somme delle frequenze attese per le colonne 1, 2 e 3); e $n=9$ è il totale di tutte le frequenze.

Vediamo come procedere per calcolare il chi-quadro e decidere se il sesso incide sulla professione oppure no.

  1. Calcoliamo le frequenze attese $N_{ij}$ mediante la seguente formula: $$N_{ij}=\frac{n_{i\cdot}\cdot n_{\cdot j}}{n}$$ Nello specifico avremo: $$\begin{eqnarray} N_{11}&=& \frac{n_{1\cdot}\cdot n_{\cdot 1}}{n}=\frac{4\cdot 4}{9}=1.78\\ N_{12}&=&\frac{n_{1\cdot}\cdot n_{\cdot 2}}{n}=\frac{4\cdot 4}{9}=1.78\\ N_{13}&=&\frac{n_{1\cdot}\cdot n_{\cdot 3}}{n}=\frac{4\cdot 1}{9}=0.44\\ N_{21}&=&\frac{n_{2\cdot}\cdot n_{\cdot 1}}{n}=\frac{5\cdot 4}{9}=2.22\\ N_{22}&=&\frac{n_{2\cdot}\cdot n_{\cdot 2}}{n}=\frac{5\cdot 4}{9}=2.22\\ N_{23}&=&\frac{n_{2\cdot}\cdot n_{\cdot 3}}{n}=\frac{5\cdot 1}{9}=0.56\end{eqnarray}$$
  2. Calcoliamo i gradi di libertà $\nu$ $$\nu=(r-1)\cdot(c-1)=(2-1)\cdot(3-1)=1\cdot 2=2$$
  3. Calcoliamo il chi-quadro mediante la formula:

    $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\chi^2=\sum\limits_i^r\sum\limits_j^c\frac{(n_{ij}-N_{ij})^2}{N_{ij}}}$$

    Espandendo le sommatorie e sostituendo i numeri otteniamo: $$\begin{eqnarray} \chi^2&=&\frac{(n_{11}-N_{11})^2}{N_{11}}+\frac{(n_{12}-N_{12})^2}{N_{12}}+\frac{(n_{13}-N_{13})^2}{N_{13}}\\ &+&\frac{(n_{21}-N_{21})^2}{N_{21}}+\frac{(n_{22}-N_{22})^2}{N_{22}}+\frac{(n_{23}-N_{23})^2}{N_{23}}=\\ &=&\frac{(3-1.78)^2}{1.78}+\frac{(1-1.78)^2}{1.78}+\frac{(0-0.44)^2}{0.44}+\\ &+&\frac{(1-2.22)^2}{2.22}+\frac{(3-2.22)^2}{2.22}+\frac{(1-0.56)^2}{0.56}=2.91\end{eqnarray}$$

A questo punto, per verificare se accettare o rifiutare l'ipotesi nulla $H_0$ posta in precedenza, si può procedere in due modi:

  1. si calcola il p-value (brevemente indicato con $p$) tenendo in considerazione il valore del chi-quadro ottenuto $\chi^2=2.91$. Se $p\le 0.5$ vuol dire che si ha soltato il 5% di probabilità che il tipo di lavoro non dipenda dal sesso e il 95% di probabilità che invece i due caratteri siano dipendenti tra loro: in questo caso $H_0$ viene rifiutata; in alternativa, cioè se $p>0.5$ si accetta $H_0$.
  2. In alternativa, in corrispondenza al valore fissato di $\alpha$, si legge dalle tavole della distribuzione chi-quadro il valore critico $\chi_{\alpha}^2$ con $(r-1)(c-1)$ gradi di liberta: si rifiuta $H_0$ se $\chi^2>\chi_{\alpha}^2$

Indici di connessione o di indipendenza

Dato che l'indice $\chi^2$ dipende dalla numerosità $n$ della popolazione, possiamo calcolare altri indici di connessione (o di indipendenza) che si svincolano da quest'ultimo. I principali sono due:

  1. indice $\Phi$ di contingenza media quadratica: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\Phi=\frac{\chi^2}{n}}$$
  2. indice $V$ di Cramer: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{V=\sqrt{\frac{\chi^2/n}{min(r,c)-1}}}$$

    dove $min(r,c)$ è il minimo tra il numero di righe e il numero di colonne.

Nel nostro caso si ha: $$V=\sqrt{\frac{2.91/9}{min(2,3)-1}}=\sqrt{\frac{2.91/9}{2-1}}=\sqrt{\frac{2.91}{9}}=0.57$$

Questo vuol dire che i due caratteri (sesso e tipo di lavoro) hanno grado di associazione del 57%.

Infine, esistono altri indici di associazione che, oltre a misurare il grado di associazione tra i caratteri, misurano anche il verso della relazione: stiamo parlando dell'indice gamma di Goodman (utilizzato se i valori in tabella sono pochi) e dell'indice di Sperman (utilizzato se i valori in tabella sono più di 11).

Il quaderno degli appunti
Statistica e Probabilità

Coefficiente di correlazione di Pearson

Dati due variabili quantitative X e Y, si dice coefficiente di correlazione lineare o covarianza normalizzata di X e Y il rapporto tra la covarianza e
Trigonometria

Teorema del coseno o di Carnot

Il teorema del coseno (o di Carnot) è una conseguenza del teorema delle proiezioni (visto qui) e afferma che in un triangolo qualsiasi, il quadrato d
Trigonometria

Teorema delle proiezioni

Il teorema delle proiezioni dice che in un triangolo qualsiasi la misura di un lato è uguale alla somma dei prodotti di quelle degli altri due lati p