Webtudordimatematica

Indice di eterogeneità di Gini

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

L'indice di eterogeneità di Gini, anche detto indice di mutuabilità di Gini,  è un indice che misura il grado di eterogeneità (o omogeneità) di una distribuzione statistica di dati suddivisa in $k$ categorie (le variabili qualitative) ciascuna delle quali con frequenza relativa $f_i,\ i=1,\dots k$. In pratica tale indice ci dice il grado di variabilità di un fenomeno statistico.

L'indice di eterogeneità di Gini, a differenza dell'indice di concentrazione, si utilizza quando la variabile in esame è qualitativa o categoriale. 

Si può quindi definire l'indice di eterogeneità di Gini come un indice di dispersione per variabili qualitative.

Esistono due versioni di questo indice, una assoluta e una relativa.

 

Indice di eterogeneità assoluto

La formula per il calcolo dell'indice di Gini assoluto è $$\bbox[#ffffff,5px,border:2px solid #ff6600]{G=1-\sum_{i=1}^kf_i^2}$$

Maggiore è tale indice più i dati saranno distribuiti in maniera eterogenea tra le $k$ modalità o ciò che è lo stesso, le $k$ modalità hanno frequenze simili. Minore è invece $G$ più i dati tenderanno a distribuirsi in maniera non equa tra le k modalità.

Esso varia secondo l'intervallo $$0\leq G\leq\cfrac{k-1}{k}$$ in particolare,

  • se $G=0$, ovvero nel caso di minima eterogeneità, i dati sono distribuiti su un'unica modalità che ha quindi frequenza relativa massima (pari a 1);
  • se $G=\frac{k-1}{k}$, ovvero nel caso di massima eterogeneità, i dati sono distribuiti equamente su tutte le $k$ modalità, le quali hanno quindi pari frequenza relativa.

Ma come facciamo a capire se G è grande o piccolo, ossia se siamo in presenza di grande o piccola eterogeneità? Occorre un indice relativo! Prosegui la lettura se vuoi scoprirlo.

 

Indice di eterogeneità relativo

Se vogliamo una misura relativa del grado di eterogeneità, possiamo calcolare l'indice di Gini relativo o normalizzato che ci da un'idea più chiara del livello di eterogeneità: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{G_N=\cfrac{G}{\frac{k-1}{k}}}$$

Quest'ultimo indice è chiaramente compreso tra 0 e 1, valori corrispondenti rispettivamente al minimo grado di eterogeneità e massimo grado di eterogeneità.

Esempio
Per un campione casuale di 7 famiglie si sa che 2 di esse hanno un capofamiglia che lavora nel settore dei servizi mentre le altre hanno un capofamiglia che lavora nel settore dell'industria. Misurare l'eterogeneità della distribuzione delle famiglie secondo il settore di attività del capofamiglia.

Innanzitutto, osserviamo che la variabile di cui si vuole calcolare l'eterogeneità è il settore lavorativo le cui uniche modalità sono "settore dei servizi" e "settore dell'industria".  Nel primo ci lavorano 2 capofamiglia su 7 ($f_1=2/7=0,29$) mentre nel secondo ci lavorano 5 capofamiglia su 7 ($f_2=5/7=0,71$). Quindi, possiamo schematizzare i dati nella seguente tabella:

Esempio sull'indice di eterogeneità di Gini

Calcoliamo prima l'indice di Gini assoluto con la formula suddetta: $$\begin{array}{l}G=1-\sum_{i=1}^2f_i^2=\\=1-(f_1^2+f_2^2)=\\=1-(0,29^2+0,71^2)=0,41\end{array}$$

E infine calcoliamo l'indice di Gini normalizzato per interpretare il risultato: $$\begin{array}{l}G_N=\cfrac{G}{\frac{k-1}{k}}=\\ =\cfrac{0,41}{\frac{2-1}{2}}=0,82\end{array}$$

Il grado di eterogeneità dei settori lavorativi è piuttosto alto il che significa che c'è un'alta variabilità. In parole più semplici, possiamo dire che il modo con cui si distribuiscono i lavoratori nei due settori è molto eterogeneo. In realtà ce lo aspettavamo dato che le frequenze relative inizialmente calcolate per ogni settore si distaccano molto.

 

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.