Nella precedente lezione abbiamo visto cos'è la varianza e come si calcola sia nel caso di una distribuzione semplice di dati che in una distribuzione con classi.
In questa lezione faremo vedere che la varianza totale di una distribuzione di dati si può scomporre in due varianze:
- Varianza tra i gruppi o varianza between $\sigma_{TRA}^2$.
- Varianza entro i gruppi o varianza within $\sigma_{ENTRO}^2$.
La varianza tra i gruppi misura lo scostamento tra la media di ogni gruppo (o media condizionata) e la media totale. In altre parole, rappresenta la variabilità tra i diversi gruppi.
La varianza entro i gruppi invece misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo. Perciò essa rappresenta la variabilità dei dati all'interno di ogni gruppo.
Di seguito ti mostro come calcolare varianza tra i gruppi e varianza entro i gruppi per tre diverse distribuzioni di dati e quindi per tre diversi scopi:
- Caso semplice: $k$ variabili numeriche chiamate anche gruppi.
- Caso tabella a doppia entrata: una variabile numerica dipendente Y e una variabile indipendente categoriale X.
- Caso regressione lineare: una variabile numerica dipendente Y e una o più variabili indipendenti $X_i$.
Analisi della varianza semplice
A tal proposito supponiamo di aver raccolto n dati suddivisi in k gruppi $A_1,\dots ,A_k$ come mostrato nella tabella sottostante.
In altre parole abbiamo una variabile numerica X misurata per k gruppi distinti. Un esempio pratico può essere la variabile stipendio mensile rilevata per professione (operaio, ingegnere, professore, impiegato, ecc).
Indichiamo con $\mu_x$ la media totale e con $\mu (X|A_i)$ la media condizionata o relativa al gruppo di dati $A_i$. La varianza totale, come visto qui, può essere calcolata con la seguente formula ridotta: $$\sigma_{TOT}^2=\cfrac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot \mu_x^2}{n-1}$$
La formula di scomposizione della varianza è: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{TOT}^2=\sigma_{TRA}^2+\sigma_{ENTRO}^2}$$
La varianza tra i gruppi si calcola con la seguente formula: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{TRA}^2=\cfrac{\sum\limits_{i=1}^kn_i[\mu (X|A_i)-\mu_x]^2}{k-1}}$$
Mentre la varianza entro i gruppi si calcola nel seguente modo: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{ENTRO}^2=\cfrac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\mu (X|A_i))^2}{n-k}}$$
Molto spesso risulta comodo considerare solo il numeratore della varianza, la devianza. Analogamente a quanto fatto per la varianza abbiamo che la devianza totale è data dalla somma della devianza tra i gruppi e devianza entro i gruppi $$\bbox[#ffffff,5px,border:2px solid #ff6600]{DEV_{TOT}=DEV_{TRA}+DEV_{ENTRO}}$$ dove $$\begin{eqnarray} DEV_{TOT}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot \mu_x^2\quad (\large\star )\\ DEV_{TRA}&=&\sum\limits_{i=1}^kn_i[\mu (X|A_i)-\mu_x]^2\quad (\large\star\large\star )\\ DEV_{ENTRO}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\mu (X|A_i))^2\quad (\large\star\large\star\large\star )\end{eqnarray}$$
Proponiamo un esempio che farà capire come scomporre praticamente la devianza.
Esempio
Supponiamo di aver raccolto i seguenti dati categorizzati in base a 5 gruppi A,B,C,D ed E e di aver calcolato sia le medie di ciascun gruppo e sia la media totale.
Calcoliamo la devianza totale e verifichiamo la formula di scomposizione calcolando la devianza entro i gruppi e quella tra i gruppi.
Calcoliamo la devianza totale mediante la $(\large\star )$: $$\begin{eqnarray} DEV_{TOT}&=&76^2+82^2+\dots +75^2+77^2+\dots +\\ &+& 87^2+93^2+\dots +83^2+72^2+\dots +\\ &+& 76^2+85^2+\dots-36\cdot 81.92^2=1834.75\end{eqnarray}$$
Calcoliamo la devianza tra i gruppi utilizzando la $(\large\star\large\star )$: $$\begin{eqnarray} DEV_{TRA}&=& 7(80.43-81.92)^2+6(79-81.92)^2+\\ &+& 8(89.50-81.92)^2+8(79.88-81.92)^2+\\ &+&6(79.57-81.92)^2=598.45\end{eqnarray}$$
Calcoliamo la devianza entro i gruppi utilizzando la $(\large\star\large\star\large\star )$: $$\begin{eqnarray} DEV_{ENTRO} &=& (76-80.43)^2+(82-80.43)^2+\dots +\\ &+&(75-79)^2+(77-79)^2+\dots +\\ &+& (87-89.50)^2+(93-89.50)^2+\dots +\\ &+&(83-79.88)^2+(72-79.88)^2+\dots +\\ &+& (76-79.57)^2+(85-79.57)^2+\dots=1236.3\end{eqnarray}$$
Si ha che $\sigma_{TOT}=1834.75=598.45+1236.3$.
Analisi della varianza in una tabella a doppia entrata
Un altro caso in cui risulta utile scomporre la varianza è quello della tabella a doppia entrata. Te ne ho parlato in questa lezione (cliccaci su!).
In tale tabella devono comparire due variabili: una numerica Y e una categoriale X che racchiude le modalità o i gruppi da mettere a confronto.
Consideriamo dunque la seguente tabella a doppia entrata:
Ribadisco il fatto che le modalità $x_i$ della variabile X sono categorie mentre le modalità $y_j$ della Y sono numeri.
La varianza between non è altro che la varianza delle medie condizionate Y dato X: $$\sigma_{TRA}^2=\sum\limits_{i=1}^h\cfrac{\mu_{yi}^2\cdot n_{i\cdot}}{N}-\mu_y^2$$ dove $\mu_{yi}$ sono le medie condizionate Y dato $X=x_i$.
Mentre invece la varianza within è la media delle varianze condizionate Y dato X: $$\sigma_{ENTRO}^2=\sum\limits_{i=1}^h\cfrac{\sigma_{yi}^2\cdot n_{i\cdot}}{N}$$ dove $\sigma_{yi}^2$ sono appunto le varianze condizionate Y dato $X=x_i$.
Anche in questo caso si dimostra che la somma delle due varianze suddette rappresenta la varianza totale di Y.
Analisi della varianza nella regressione lineare
Ti ho parlato di regressione lineare semplice in questo articolo e ti ho spiegato come scomporre la devianza illustrandoti tutte le formule. Facci un salto per approfondire.