Webtudordimatematica

Scomposizione della varianza

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Nella precedente lezione abbiamo visto cos'è la varianza e come si calcola sia nel caso di una distribuzione semplice di dati che in una distribuzione con classi.

In questa lezione faremo vedere che la varianza totale di una distribuzione di dati si può scomporre in due varianze:

  • Varianza tra i gruppi o varianza between $\sigma_{TRA}^2$.
  • Varianza entro i gruppi o varianza within $\sigma_{ENTRO}^2$.

La varianza tra i gruppi misura lo scostamento tra la media di ogni gruppo (o media condizionata) e la media totale. In altre parole, rappresenta la variabilità tra i diversi gruppi.

La varianza entro i gruppi invece misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo. Perciò essa rappresenta la variabilità dei dati all'interno di ogni gruppo.

 

Di seguito ti mostro come calcolare varianza tra i gruppi e varianza entro i gruppi per tre diverse distribuzioni di dati e quindi per tre diversi scopi:

  1. Caso semplice: $k$ variabili numeriche chiamate anche gruppi.
  2. Caso tabella a doppia entrata: una variabile numerica dipendente Y e una variabile indipendente categoriale X.
  3. Caso regressione lineare: una variabile numerica dipendente Y e una o più variabili indipendenti $X_i$. 

 

Analisi della varianza semplice

A tal proposito supponiamo di aver raccolto n dati suddivisi in k gruppi $A_1,\dots ,A_k$ come mostrato nella tabella sottostante. 

Decomposizione della devianza

 

In altre parole abbiamo una variabile numerica X misurata per k gruppi distinti. Un esempio pratico può essere la variabile stipendio mensile rilevata per professione (operaio, ingegnere, professore, impiegato, ecc).

Indichiamo con $\mu_x$ la media totale e con $\mu (X|A_i)$ la media condizionata o relativa al gruppo di dati $A_i$. La varianza totale, come visto qui, può essere calcolata con la seguente formula ridotta: $$\sigma_{TOT}^2=\cfrac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot \mu_x^2}{n-1}$$

La formula di scomposizione della varianza è: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{TOT}^2=\sigma_{TRA}^2+\sigma_{ENTRO}^2}$$

La varianza tra i gruppi si calcola con la seguente formula: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{TRA}^2=\cfrac{\sum\limits_{i=1}^kn_i[\mu (X|A_i)-\mu_x]^2}{k-1}}$$

Mentre la varianza entro i gruppi si calcola nel seguente modo: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{\sigma_{ENTRO}^2=\cfrac{\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\mu (X|A_i))^2}{n-k}}$$

Molto spesso risulta comodo considerare solo il numeratore della varianza, la devianza. Analogamente a quanto fatto per la varianza abbiamo che la devianza totale è data dalla somma della devianza tra i gruppi e devianza entro i gruppi $$\bbox[#ffffff,5px,border:2px solid #ff6600]{DEV_{TOT}=DEV_{TRA}+DEV_{ENTRO}}$$ dove $$\begin{eqnarray} DEV_{TOT}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}x_{ij}^2-n\cdot \mu_x^2\quad (\large\star )\\ DEV_{TRA}&=&\sum\limits_{i=1}^kn_i[\mu (X|A_i)-\mu_x]^2\quad (\large\star\large\star )\\ DEV_{ENTRO}&=&\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_i}(x_{ij}-\mu (X|A_i))^2\quad (\large\star\large\star\large\star )\end{eqnarray}$$

Proponiamo un esempio che farà capire come scomporre praticamente la devianza.

Esempio

Supponiamo di aver raccolto i seguenti dati categorizzati in base a 5 gruppi A,B,C,D ed E e di aver calcolato sia le medie di ciascun gruppo e sia la media totale.

Esercizio sulla scomposizione della devianza

Calcoliamo la devianza totale e verifichiamo la formula di scomposizione calcolando la devianza entro i gruppi e quella tra i gruppi.

Calcoliamo la devianza totale mediante la $(\large\star )$: $$\begin{eqnarray} DEV_{TOT}&=&76^2+82^2+\dots +75^2+77^2+\dots +\\ &+& 87^2+93^2+\dots +83^2+72^2+\dots +\\ &+& 76^2+85^2+\dots-36\cdot 81.92^2=1834.75\end{eqnarray}$$

Calcoliamo la devianza tra i gruppi utilizzando la $(\large\star\large\star )$: $$\begin{eqnarray} DEV_{TRA}&=& 7(80.43-81.92)^2+6(79-81.92)^2+\\ &+& 8(89.50-81.92)^2+8(79.88-81.92)^2+\\ &+&6(79.57-81.92)^2=598.45\end{eqnarray}$$

Calcoliamo la devianza entro i gruppi utilizzando la $(\large\star\large\star\large\star )$: $$\begin{eqnarray} DEV_{ENTRO} &=& (76-80.43)^2+(82-80.43)^2+\dots +\\ &+&(75-79)^2+(77-79)^2+\dots +\\ &+& (87-89.50)^2+(93-89.50)^2+\dots +\\ &+&(83-79.88)^2+(72-79.88)^2+\dots +\\ &+& (76-79.57)^2+(85-79.57)^2+\dots=1236.3\end{eqnarray}$$

Si ha che $\sigma_{TOT}=1834.75=598.45+1236.3$.

 

Analisi della varianza in una tabella a doppia entrata

Un altro caso in cui risulta utile scomporre la varianza è quello della tabella a doppia entrata. Te ne ho parlato in questa lezione (cliccaci su!).

In tale tabella devono comparire due variabili: una numerica Y e una categoriale X che racchiude le modalità o i gruppi da mettere a confronto.

Consideriamo dunque la seguente tabella a doppia entrata:

tabella doppia entrata

Ribadisco il fatto che le modalità $x_i$ della variabile X sono categorie mentre le modalità $y_j$ della Y sono numeri.

La varianza between non è altro che la varianza delle medie condizionate Y dato X: $$\sigma_{TRA}^2=\sum\limits_{i=1}^h\cfrac{\mu_{yi}^2\cdot n_{i\cdot}}{N}-\mu_y^2$$ dove $\mu_{yi}$ sono le medie condizionate Y dato $X=x_i$.

Mentre invece la varianza within è la media delle varianze condizionate Y dato X: $$\sigma_{ENTRO}^2=\sum\limits_{i=1}^h\cfrac{\sigma_{yi}^2\cdot n_{i\cdot}}{N}$$ dove $\sigma_{yi}^2$ sono appunto le varianze condizionate Y dato $X=x_i$.

Anche in questo caso si dimostra che la somma delle due varianze suddette rappresenta la varianza totale di Y.

 

Analisi della varianza nella regressione lineare

Ti ho parlato di regressione lineare semplice in questo articolo e ti ho spiegato come scomporre la devianza illustrandoti tutte le formule. Facci un salto per approfondire.

 

 

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.