Nella precedente lezione abbiamo visto cos'è la varianza e come si calcola sia nel caso di una distribuzione semplice di dati che in una distribuzione con classi.
In questa lezione faremo vedere che la varianza totale di una distribuzione di dati si può scomporre in due varianze: varianza tra i gruppi e varianza entro i gruppi. Tale concetto sarà importante per studiare quella parte di inferenza statistica nota come analisi della varianza.
A tal proposito supponiamo di aver raccolto n dati suddivisi in k gruppi $A_1,\dots ,A_k$ come mostrato nella tabella sottostante.
Indichiamo con $M(X)$ la media totale e con $M(X|A_i)$ la media condizionata o relativa al gruppo di dati $A_i$. La varianza totale come visto qui, può essere calcolata con la seguente formula ridotta: $$VAR_{tot}=\frac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot M(X)^2}{n-1}$$
Tale varianza si può scomporre nella somma di due particolari varianze: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{VAR_{tot}=VAR_{tra}+VAR_{entro}}$$
La $VAR_{tra}$ è detta varianza tra i gruppi o between e misura lo scostamento tra la media di ogni gruppo (o media condizionata) e la media totale. In altre parole, rappresenta la variabilità tra i diversi gruppi e la sua formula è la seguente: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{VAR_{tra}=\frac{\sum\limits_{i=1}^kn_i[M(X|A_i)-M(X)]^2}{k-1}}$$
La $VAR_{entro}$ invece è detta varianza entro i gruppi o within e misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo. Perciò essa rappresenta la variabilità dei dati all'interno di ogni gruppo e la sua formula è: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{VAR_{entro}=\frac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-M(X|A_i))^2}{n-k}}$$
Molto spesso risulta comodo considerare solo il numeratore della varianza, la devianza. Analogamente a quanto fatto per la varianza abbiamo che la devianza totale è data dalla somma della devianza tra i gruppi e devianza entro i gruppi $$\bbox[#ffffff,5px,border:2px solid #ff6600]{DEV_{tot}=DEV_{tra}+DEV_{entro}}$$ dove $$\begin{eqnarray} DEV_{tot}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot M(X)^2\quad (\large\star )\\ DEV_{tra}&=&\sum\limits_{i=1}^kn_i[M(X|A_i)-M(X)]^2\quad (\large\star\large\star )\\ DEV_{entro}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-M(X|A_i))^2\quad (\large\star\large\star\large\star )\end{eqnarray}$$
Proponiamo un esempio che farà capire come scomporre praticamente la devianza.
Esempio
Supponiamo di aver raccolto i seguenti dati categorizzati in base a 5 gruppi A,B,C,D ed E e di aver calcolato sia le medie di ciascun gruppo e sia la media totale.
Calcoliamo la devianza totale e verifichiamo la formula di scomposizione calcolando la devianza entro i gruppi e quella tra i gruppi.
Calcoliamo la devianza totale mediante la $(\large\star )$: $$\begin{eqnarray} DEV_{tot}&=&76^2+82^2+\dots +75^2+77^2+\dots +\\ &+& 87^2+93^2+\dots +83^2+72^2+\dots +\\ &+& 76^2+85^2+\dots-36\cdot 81.92^2=1834.75\end{eqnarray}$$
Calcoliamo la devianza tra i gruppi utilizzando la $(\large\star\large\star )$: $$\begin{eqnarray} DEV_{tra}&=& 7(80.43-81.92)^2+6(79-81.92)^2+\\ &+& 8(89.50-81.92)^2+8(79.88-81.92)^2+\\ &+&6(79.57-81.92)^2=598.45\end{eqnarray}$$
Calcoliamo la devianza entro i gruppi utilizzando la $(\large\star\large\star\large\star )$: $$\begin{eqnarray} DEV_{entro} &=& (76-80.43)^2+(82-80.43)^2+\dots +\\ &+&(75-79)^2+(77-79)^2+\dots +\\ &+& (87-89.50)^2+(93-89.50)^2+\dots +\\ &+&(83-79.88)^2+(72-79.88)^2+\dots +\\ &+& (76-79.57)^2+(85-79.57)^2+\dots=1236.3\end{eqnarray}$$
Si ha che $VAR_{tot}=1834.75=598.45+1236.3$.