NOTA! Questo sito utilizza i cookie e tecnologie simili.

Se non si modificano le impostazioni del browser, l'utente accetta. Per saperne di piu'

Approvo

Variabili quantitative e qualitative

I dati raccolti da una popolazione o da un campione, si presentano allo statistico in maniera disordinata tant'è che vengono chiamati dati grezzi.

I dati grezzi, cosi come sono, non forniscono informazione finchè non vengono ordinati in qualche modo.

In questo articolo e nelle lezioni successive, verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche e far venire a galla le informazioni utili.

Vediamo alcuni esempi di dati grezzi:

Esempio dati grezzi 1

Numero di particelle cosmiche rilevate con uno strumento di misurazione in 40 periodi consecutivi di un minuto

numero di particelle rilevate in un intervallo di un minuto

Esempio dati grezzi 2

80 misurazioni, in una data unità di misura, delle emissioni giornaliere di un gas inquinante da un impianto industriale

quantita di gas inquinante emesso in un giorno

Esempio dati grezzi 3

Casi di malfunzionamento di una macchina utensile controllata dal computer e le loro cause

causa guasto macchina utensile

Per ciascuno degli esempi possiamo indicare chiaramente qual è la variabile osservata e il numero di osservazioni registrate:

  1. il numero di particelle rilevate in un intervallo di un minuto ($n=40$ dati da analizzare);
  2. la quantità di gas inquinante in un giorno ($n=80$ dati da analizzare);
  3. la causa di un guasto di una macchina utensile ($n=48$ dati da analizzare).

Le variabili osservate possono classificarsi come mostrato nella figura seguente:

classificazione variabili quantitative e qualitative

Una variabile si dice numerica o quantitativa se i valori che essa assume sono numeri; si dice non numerica o qualitativa se non assume valori numerici.

Le variabili degli esempi 1 e 2 sono numeriche, la variabile dell'esempio 3 è non numerica.

Una variabile numerica si dice discreta se l'insieme dei valori che può assumere è finito o numerabile (l'insieme dei numeri naturali 1,2,3,4,...), continua se l'insieme dei valori che essa può assumere è l'insieme dei numeri reali o un intervallo di numeri reali.

La variabile dell'esempio 1 è discreta perchè il numero di particelle osservate è sempre un numero intero maggiore o uguale a 0; la variabile dell'esempio 2, perchè la misura della quantità di gas emesso può essere un qualunque numero reale positivo (non solo intero).

Variabili numeriche discrete

Nell'esempio 1 la variabile $X$ osservata è una variabile numerica discreta, che può assumere solo i valori 0,1,2,3,4,5,6,7,8. Per tale motivo è plausibile organizzare tali dati in classi $k=0,1,2,,3,4,5,6,7,8$ e contare per ogni classe il numero di osservazioni rilevate detta frequenza assoluta. Inoltre, per ogni classe, possiamo ricavarci la frequenza relativa, ossia il rapporto tra la frequenza assoluta e il numero totale di osservazioni (nel nostro esempio 40) e la frequenza percentuale, ossia la frequenza relativa moltiplicata per 100, come mostra la seguente tabella:

Distribuzione di frequenza di una variabile numerica discreta

Osserviamo, per esempio, che, poichè la classe 2 si presenta 10 volte (frequenza assoluta) nell'esempio 1, la sua frequenza relativa e quella percentuale sono rispettivamente $$\begin{eqnarray} f_r &=& \frac{10}{40}=0.25\\ f_p &=& 0.25\cdot 100\%=25\%\end{eqnarray}$$

Osserviamo inoltre, che, il totale delle frequenze assolute coincide il totale delle osservazioni rilevate, il totale delle frequenze relative è 1 e il totale delle frequenze percentuali è 100%.

Variabili numeriche continue

Nell'esempio 2 la variabile osservata è continua ed assume valori compresi tra 6.2 e 31.8. In questo caso si sceglie di raggruppare i dati in classi intervallari.

Di solito si scelgono un numero di classi pari a $$k=1+3.322\cdot\log_{10}{n}=$$ (dove $n$ rappresenta il numero dei dati osservati), tutte con uguale ampiezza $$a=\frac{R}{k}$$ dove $R$ rappresenta il campo di variazione o range dei dati, cioè la differenza tra il valore più grande e quello più piccolo.

Quindi, nell'esempio considerato si ha: $$\begin{eqnarray} k &=& 1+3.322\cdot\log_{10}80\simeq 7\\ a &=& \frac{31.8-6.2}{7}\simeq 3.7\end{eqnarray}$$

Questo giustifica la scelta di suddividere i dati in 7 classi di ampiezza 4: $$\begin{eqnarray} 5\le\ &x& < 9\\ 9\le\ &x& < 13\\ 13\le\ &x& < 17\\ 17\le\ &x& < 21\\ 21\le\ &x& < 25\\ 25\le\ &x& < 29\\ 29\le\ &x& < 33\end{eqnarray}$$

Come fatto prima per la variabile discreta, troviamo la seguente distribuzione delle frequenza per la variabile numerica continua:

Distribuzione di frequenza di una variabile numerica continua

Con i dati dell'esempio 1 si possono usare classi comprendenti due possibili valori della variabile osservata, ottenendo la seguente distribuzione di frequenza:

Distribuzione di frequenza per una variabile discreta con classi comprendenti due valori

Variabili non numeriche o qualitative

Nell'esempio 3 la variabile "tipo di guasto" è non numerica e, essendo i dati già raggruppati in classi, si ottiene la seguente distribuzione di frequenza:

Distribuzione di frequenza di una variabile qualitativa

Letto 9270 volte

Effettua il LOGIN al sito per aggiungere commenti oppure REGISTRATI se non hai ancora un account.