NOTA! Questo sito utilizza i cookie e tecnologie simili.

Se non si modificano le impostazioni del browser, l'utente accetta. Per saperne di piu'

Approvo

Scomposizione della devianza-varianza

Nella precedente lezione abbiamo visto cos'è la varianza e come si calcola sia nel caso di una distribuzione semplice di dati che in una distribuzione con classi.

In questa lezione faremo vedere che la varianza totale di una distribuzione di dati si può scomporre in due varianze: varianza tra i gruppi e varianza entro i gruppi. Tale concetto sarà importante per studiare quella parte di inferenza statistica nota come analisi della varianza.

A tal proposito supponiamo di aver raccolto n dati suddivisi in k gruppi $A_1,\dots ,A_k$ come mostrato nella tabella sottostante.

Decomposizione della devianza

Indichiamo con $M(X)$ la media totale e con $M(X|A_i)$ la media condizionata o relativa al gruppo di dati $A_i$. La varianza totale come visto qui, può essere calcolata con la seguente formula ridotta: $$VAR_{tot}=\frac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot M(X)^2}{n-1}$$

Tale varianza si può scomporre nella somma di due particolari varianze: $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{VAR_{tot}=VAR_{tra}+VAR_{entro}}$$

La $VAR_{tra}$ è detta varianza tra i gruppi o between e misura lo scostamento tra la media di ogni gruppo (o media condizionata) e la media totale. In altre parole, rappresenta la variabilità tra i diversi gruppi e la sua formula è la seguente: $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{VAR_{tra}=\frac{\sum\limits_{i=1}^kn_i[M(X|A_i)-M(X)]^2}{k-1}}$$

La $VAR_{entro}$ invece è detta varianza entro i gruppi o within e misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo. Perciò essa rappresenta la variabilità dei dati all'interno di ogni gruppo e la sua formula è: $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{VAR_{entro}=\frac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-M(X|A_i))^2}{n-k}}$$

Molto spesso risulta comodo considerare solo il numeratore della varianza, la devianza. Analogamente a quanto fatto per la varianza abbiamo che la devianza totale è data dalla somma della devianza tra i gruppi e devianza entro i gruppi $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{DEV_{tot}=DEV_{tra}+DEV_{entro}}$$ dove $$\begin{eqnarray} DEV_{tot}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot M(X)^2\quad (\bigstar )\\ DEV_{tra}&=&\sum\limits_{i=1}^kn_i[M(X|A_i)-M(X)]^2\quad (\bigstar\bigstar )\\ DEV_{entro}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-M(X|A_i))^2\quad (\bigstar\bigstar\bigstar )\end{eqnarray}$$

Proponiamo un esempio che farà capire come scomporre praticamente la devianza.

Supponiamo di aver raccolto i seguenti dati categorizzati in base a 5 gruppi A,B,C,D ed E e di aver calcolato sia le medie di ciascun gruppo e sia la media totale.

Esercizio sulla scomposizione della devianza

Calcoliamo la devianza totale e verifichiamo la formula di scomposizione calcolando la devianza entro i gruppi e quella tra i gruppi.

Calcoliamo la devianza totale mediante la $(\bigstar )$: $$\begin{eqnarray} DEV_{tot}&=&76^2+82^2+\dots +75^2+77^2+\dots +\\ &+& 87^2+93^2+\dots +83^2+72^2+\dots +\\ &+& 76^2+85^2+\dots-36\cdot 81.92^2=1834.75\end{eqnarray}$$

Calcoliamo la devianza tra i gruppi utilizzando la $(\bigstar\bigstar )$: $$\begin{eqnarray} DEV_{tra}&=& 7(80.43-81.92)^2+6(79-81.92)^2+\\ &+& 8(89.50-81.92)^2+8(79.88-81.92)^2+\\ &+&6(79.57-81.92)^2=598.45\end{eqnarray}$$

Calcoliamo la devianza entro i gruppi utilizzando la $(\bigstar\bigstar\bigstar )$: $$\begin{eqnarray} DEV_{entro} &=& (76-80.43)^2+(82-80.43)^2+\dots +\\ &+&(75-79)^2+(77-79)^2+\dots +\\ &+& (87-89.50)^2+(93-89.50)^2+\dots +\\ &+&(83-79.88)^2+(72-79.88)^2+\dots +\\ &+& (76-79.57)^2+(85-79.57)^2+\dots=1236.3\end{eqnarray}$$

Si ha che $VAR_{tot}=1834.75=598.45+1236.3$.

Letto 1843 volte

Effettua il LOGIN al sito per aggiungere commenti oppure REGISTRATI se non hai ancora un account.