Webtudordimatematica

Tabella di contingenza

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Una tabella a doppia entrata non è altro che una tabella che contiene due variabili X e Y le cui modalità o valori assunti appaiono sia nelle righe che nelle colonne. La tabella a doppia entrata viene usata quando si vogliono raccogliere esattamente due informazioni (fornite appunto da due variabili) riguardo una stessa unità statistica e si è interessati al verificarsi contemporaneo delle rispettive modalità.

In statistica è chiamata distribuzione di frequenza bivariata o doppia proprio perché all'interno di essa compaiono le frequenze che nascono dall'incrocio delle varie modalità delle due variabili. Formalmente viene anche detta tabella di contingenza o distribuzione di frequenza congiunta e presenta delle etichette di riga e di colonna che descrivono le modalità delle due variabili.

Adesso ti spiego concretamente come è fatta una tabella a doppia entrata descrivendoti tutti gli elementi che la compongono. Indichiamo con:

  • X e Y le variabili o caratteri di riga e colonna aventi rispettivamente le seguenti modalità o valori: $$\begin{array}{l} x_1,x_2,\dots ,x_r\\ y_1,y_2,\dots ,y_c\end{array}$$
  • $n_{ij}$ la frequenza assoluta della coppia $(x_i,y_j)$.

Allora la tabella a doppia entrata formata da r righe e c colonne  (escluse la riga e la colonna dei totali) avrà la seguente forma:

Struttura di una tabella a doppia entrata

 

Ora ti spiego come leggere una tabella a doppia entrata di questo tipo sottolineando il fatto che i caratteri X e Y possono essere sia quantitativi numerici che qualitativi o categoriali per cui le modalità $x_i$ e $y_i$ possono essere sia dei numeri che delle categorie.

  • Come già detto, la parte centrale della tabella, ossia le $n_{ij}$ rappresentano le frequenze assolute per quanto riguarda le modalità $x_i$ e $y_j$ (ad esempio $n_{21}$ indica la frequenza assoluta per le modalità $x_2$ e $y_1$.
  • $n_{1\cdot}, n_{2\cdot},\dots , n_{r\cdot}$ sono le frequenze marginali assolute della variabile $X$ che formano la distribuzione marginale di riga (di X); esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., c-esima colonna (ad esempio $n_{1\cdot} = n_{11}+n_{12}+\dots +n_{1c}$). In generale per la i-esima riga possiamo scrivere $$n_{i\cdot}=n_{i1}+n_{i2}+\dots +n_{ic}$$
  • $n_{\cdot 1}, n_{\cdot 2},\dots , n_{\cdot c}$ sono le frequenze marginali assolute della variabile $Y$ che formano la distribuzione marginale di colonna (di Y); esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., r-esima riga (ad esempio $n_{\cdot 2} = n_{12}+n_{22}+\dots +n_{r2}$). In generale per la j-esima colonna possiamo scrivere $$n_{\cdot j}=n_{1j}+n_{2j}+\dots +n_{rj}$$
  • $n$ è la somma totale delle frequenze assolute $n_ij$, nonchè la somma delle frequenze marginali assolute di riga e di colonna, ossia: $$n=n_{1\cdot}+ n_{2\cdot}+\dots + n_{r\cdot}= n_{\cdot 1}+ n_{\cdot 2}+\dots + n_{\cdot c}$$
  • La j-esima colonna della tabella rappresenta la distribuzione condizionata $X|Y=y_j$ (leggi $X$ dato $Y=y_j$). Ad esempio, la 3° colonna è la distribuzione condizionata della $X$ dato $Y=y_3$.
  • La i-esima riga della tabella rappresenta la distribuzione condizionata $Y|X=x_i$ (leggi $Y$ dato $X=x_i$). Ad esempio, nella seconda riga troviamo la distribuzione condizionata della $Y$ dato $X=x_2$.

Quanto detto è illustrato schematicamente di seguito.

Distribuzioni marginali e condizionate

Esempio

La tabella seguente raccoglie alcune informazioni riguardo la strage del Titanic; in particolare sono presenti le frequenze assolute per la variabile $X = esito$ (con modalità $x_1=salvato$ e $x_2=non salvato$) e per la variabile $Y= Classe$ (con modalità $y_1=I\ classe$, $y_2=II\ classe$ e $y_3=III\ classe$).

Esempio di tabella a doppia entrata
Osserviamo innanzitutto che entrambe le variabili $X$ e $Y$ sono qualitative; inoltre, la tabella ci dice, ad esempio, che 203 passeggeri che viaggiavano in I classe si sono salvati. Analogamente, possiamo dire che 528 passeggeri che viaggiavano in III classe non si sono salvati. Inoltre, guardando i bordi della tabella, in particolare quello destro, si evince che il totale dei sopravvissuti sono stati 499 a prescindere dalla classe in cui viaggiavano; mentre, guardando il bordo inferiore della tabella, si può dedurre che il numero totale dei passeggeri che viaggiavano in II classe erano 285 a prescindere dall'esito del disastro.

Osserviamo infine che:
  • I valori presenti nella parte interna della tabella ($n_{11}=203$, $n_{12}=118$, $n_{13}=178$, $n_{21}=122$, $n_{22}=167$ e $n_{23}=528$) sono le frequenze assolute
  • I valori presenti nel bordo destro sono le frequenze marginali della variabile Esito e si ha che: $$\begin{array}{l} n_{1\cdot}=499=203+118+178\\ n_{2\cdot}=817=122+167+528\end{array}$$
  • I valori presenti nel bordo inferiore sono le frequenze marginali della variabile Classe e si ha che: $$\begin{array}{l} n_{\cdot 1}=325=203+122\\ n_{\cdot 2}=285=118+167\\ n_{\cdot 3}=706=178+528\end{array}$$
  • Il numero posto nell'angolo in basso a destra è il totale delle frequenze marginali di riga e di colonna $$\begin{array}{l} n &=1316 =499+817=\\ &= 325+285+706\end{array}$$
  • Se consideriamo una sola riga otteniamo la distribuzione della variabile Classe condizionata a una modalità della variabile Esito. Ad esempio i valori della 1° riga esprimono la distribuzione della variabile Classe condizionata alla modalità "Salvato" della variabile Esito.

    Distribuzione condizionata di riga
  • Se consideriamo una sola colonna otteniamo la distribuzione della variabile Esito condizionata a una modalità della variabile Classe. Ad esempio i valori della 2° colonna esprimono la distribuzione della variabile Esito condizionata alla modalità "II classe" della variabile Classe

    Distribuzione condizionata di colonna

 

Sulle tabelle a doppia entrate si possono applicare delle formule per determinare la media e la mediana condizionata. Queste non sono altro che la media e la mediana dei valori di una specifica riga o colonna della tabella. Se vuoi scoprire quali sono i procedimenti per il calcolo visita i link qui in basso:

 

Tabelle a doppia entrata con il software R

Ti stai chiedendo come costruire le tabelle a doppia entrata con il software statistico R? Guarda il video qui in basso oppure leggi questo articolo dove ne parlo in dettaglio.

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.