Una tabella a doppia entrata non è altro che una tabella che contiene due variabili X e Y le cui modalità o valori assunti appaiono sia nelle righe che nelle colonne. La tabella a doppia entrata viene usata quando si vogliono raccogliere esattamente due informazioni (fornite appunto da due variabili) riguardo una stessa unità statistica e si è interessati al verificarsi contemporaneo delle rispettive modalità.
In statistica è chiamata distribuzione di frequenza bivariata o doppia proprio perché all'interno di essa compaiono le frequenze che nascono dall'incrocio delle varie modalità delle due variabili. Formalmente viene anche detta tabella di contingenza o distribuzione di frequenza congiunta e presenta delle etichette di riga e di colonna che descrivono le modalità delle due variabili.
Adesso ti spiego concretamente come è fatta una tabella a doppia entrata descrivendoti tutti gli elementi che la compongono. Indichiamo con:
- X e Y le variabili o caratteri di riga e colonna aventi rispettivamente le seguenti modalità o valori: $$\begin{array}{l} x_1,x_2,\dots ,x_r\\ y_1,y_2,\dots ,y_c\end{array}$$
- $n_{ij}$ la frequenza assoluta della coppia $(x_i,y_j)$.
Allora la tabella a doppia entrata formata da r righe e c colonne (escluse la riga e la colonna dei totali) avrà la seguente forma:
Ora ti spiego come leggere una tabella a doppia entrata di questo tipo sottolineando il fatto che i caratteri X e Y possono essere sia quantitativi numerici che qualitativi o categoriali per cui le modalità $x_i$ e $y_i$ possono essere sia dei numeri che delle categorie.
- Come già detto, la parte centrale della tabella, ossia le $n_{ij}$ rappresentano le frequenze assolute per quanto riguarda le modalità $x_i$ e $y_j$ (ad esempio $n_{21}$ indica la frequenza assoluta per le modalità $x_2$ e $y_1$.
- $n_{1\cdot}, n_{2\cdot},\dots , n_{r\cdot}$ sono le frequenze marginali assolute della variabile $X$ che formano la distribuzione marginale di riga (di X); esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., c-esima colonna (ad esempio $n_{1\cdot} = n_{11}+n_{12}+\dots +n_{1c}$). In generale per la i-esima riga possiamo scrivere $$n_{i\cdot}=n_{i1}+n_{i2}+\dots +n_{ic}$$
- $n_{\cdot 1}, n_{\cdot 2},\dots , n_{\cdot c}$ sono le frequenze marginali assolute della variabile $Y$ che formano la distribuzione marginale di colonna (di Y); esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., r-esima riga (ad esempio $n_{\cdot 2} = n_{12}+n_{22}+\dots +n_{r2}$). In generale per la j-esima colonna possiamo scrivere $$n_{\cdot j}=n_{1j}+n_{2j}+\dots +n_{rj}$$
- $n$ è la somma totale delle frequenze assolute $n_ij$, nonchè la somma delle frequenze marginali assolute di riga e di colonna, ossia: $$n=n_{1\cdot}+ n_{2\cdot}+\dots + n_{r\cdot}= n_{\cdot 1}+ n_{\cdot 2}+\dots + n_{\cdot c}$$
- La j-esima colonna della tabella rappresenta la distribuzione condizionata $X|Y=y_j$ (leggi $X$ dato $Y=y_j$). Ad esempio, la 3° colonna è la distribuzione condizionata della $X$ dato $Y=y_3$.
- La i-esima riga della tabella rappresenta la distribuzione condizionata $Y|X=x_i$ (leggi $Y$ dato $X=x_i$). Ad esempio, nella seconda riga troviamo la distribuzione condizionata della $Y$ dato $X=x_2$.
Quanto detto è illustrato schematicamente di seguito.
La tabella seguente raccoglie alcune informazioni riguardo la strage del Titanic; in particolare sono presenti le frequenze assolute per la variabile $X = esito$ (con modalità $x_1=salvato$ e $x_2=non salvato$) e per la variabile $Y= Classe$ (con modalità $y_1=I\ classe$, $y_2=II\ classe$ e $y_3=III\ classe$).
Osserviamo innanzitutto che entrambe le variabili $X$ e $Y$ sono qualitative; inoltre, la tabella ci dice, ad esempio, che 203 passeggeri che viaggiavano in I classe si sono salvati. Analogamente, possiamo dire che 528 passeggeri che viaggiavano in III classe non si sono salvati. Inoltre, guardando i bordi della tabella, in particolare quello destro, si evince che il totale dei sopravvissuti sono stati 499 a prescindere dalla classe in cui viaggiavano; mentre, guardando il bordo inferiore della tabella, si può dedurre che il numero totale dei passeggeri che viaggiavano in II classe erano 285 a prescindere dall'esito del disastro.
Osserviamo infine che:
- I valori presenti nella parte interna della tabella ($n_{11}=203$, $n_{12}=118$, $n_{13}=178$, $n_{21}=122$, $n_{22}=167$ e $n_{23}=528$) sono le frequenze assolute
- I valori presenti nel bordo destro sono le frequenze marginali della variabile Esito e si ha che: $$\begin{array}{l} n_{1\cdot}=499=203+118+178\\ n_{2\cdot}=817=122+167+528\end{array}$$
- I valori presenti nel bordo inferiore sono le frequenze marginali della variabile Classe e si ha che: $$\begin{array}{l} n_{\cdot 1}=325=203+122\\ n_{\cdot 2}=285=118+167\\ n_{\cdot 3}=706=178+528\end{array}$$
- Il numero posto nell'angolo in basso a destra è il totale delle frequenze marginali di riga e di colonna $$\begin{array}{l} n &=1316 =499+817=\\ &= 325+285+706\end{array}$$
- Se consideriamo una sola riga otteniamo la distribuzione della variabile Classe condizionata a una modalità della variabile Esito. Ad esempio i valori della 1° riga esprimono la distribuzione della variabile Classe condizionata alla modalità "Salvato" della variabile Esito.
- Se consideriamo una sola colonna otteniamo la distribuzione della variabile Esito condizionata a una modalità della variabile Classe. Ad esempio i valori della 2° colonna esprimono la distribuzione della variabile Esito condizionata alla modalità "II classe" della variabile Classe
Sulle tabelle a doppia entrate si possono applicare delle formule per determinare la media e la mediana condizionata. Queste non sono altro che la media e la mediana dei valori di una specifica riga o colonna della tabella. Se vuoi scoprire quali sono i procedimenti per il calcolo visita i link qui in basso:
- Calcolo media di una distribuzione di frequenze condizionata
- Calcolo mediana di una distribuzione di frequenze condizionata
Tabelle a doppia entrata con il software R
Ti stai chiedendo come costruire le tabelle a doppia entrata con il software statistico R? Guarda il video qui in basso oppure leggi questo articolo dove ne parlo in dettaglio.