L'indice di Gini, è un indice che misura il grado di eterogeneità (omogeneità) in una distribuzione statistica di dati suddivisa in $k$ categorie (le variabili qualitative) ciascuna delle quali con frequenza relativa $f_{r_i},\ i=1,\dots k$.
La formula per il calcolo dell'indice di Gini assoluto è $$\bbox[#ffffff,5px,border:2px solid #ff6600]{G=1-\sum_{i=1}^kf_{r_i}^2}$$
Maggiore è tale indice più i dati saranno distribuiti in maniera eterogenea tra le $k$ modalità o ciò che è lo stesso, le $k$ modalità hanno frequenze simili. Minore è invece $G$ più i dati tenderanno a distribuirsi in maniera non equa tra le k modalità.
Esso varia secondo l'intervallo $$0\leq G\leq\frac{k-1}{k}$$ in particolare,
- se $G=0$, ovvero nel caso di minima eterogeneità, i dati sono distribuiti su un'unica modalità che ha quindi frequenza relativa massima (pari a 1);
- se $G=\frac{k-1}{k}$, ovvero nel caso di massima eterogeneità, i dati sono distribuiti equamente su tutte le $k$ modalità, le quali hanno quindi pari frequenza relativa.
Se vogliamo una misura relativa del grado di eterogeneità, possiamo calcolare l'indice di Gini relativo o normalizzato che ci da più l'idea del livello di eterogeneità: $$\bbox[#ffffff,5px,border:2px solid #ff6600]{G_N=\frac{G}{\frac{k-1}{k}}}$$
Quest'ultimo indice è chiaramente compreso tra 0 e 1, valori corrispondenti rispettivamente al minimo grado di eterogeneità e massimo grado di eterogeneità.
Esempio