Webtudordimatematica

Come calcolare le statistiche descrittive con R

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

In questo articolo ti parlo su come calcolare tutte le statistiche descrittive di un dataset con R. In particolare, ti mostrerò 3 modi per farlo:

  1. Calcolo delle statistiche descrittive di un intero dataset o dataframe
  2. Calcolo di una specifica statistica descrittiva (indice di posizione o dispersione)
  3. Calcolo delle statistiche descrittive di gruppo

Inoltre, se vuoi vedere un esempio pratico guarda il video che trovi in fondo alla pagina.

Statistiche descrittive di un intero dataset

Il comando R calcola automaticamente le principali statistiche descrittive è descr contenuto nella library summarytools. Supponi che il tuo dataset è stato salvato nell'oggetto data, allora i comandi

library(summarytools)
descr(data)

permettono di calcolare le statistiche descrittive di tutte le variabili numeriche contenute in data. Di seguito un esempio di output generato in console:

Statistiche descrittive con R

Se il dataset dovesse contenere delle variabili categoriali o fattore (cioè variabili qualitative), il comando descr le ignorerà perché appunto non ha senso calcolare, ad esempio, media e varianza per variabili che esprimono delle qualità.

La funzione descr permette anche di calcolare le statistiche descrittive di una singola variabile contenuta in data. In questo caso tra parentesi devi specificare il nome della variabile preceduto dal simbolo "$":

descr(data\$nome_variabile)

 

Calcolo di una specifica statistica descrittiva

Immagino ti stai già chiedendo se c'è un modo per calcolare una specifica statistica, ad esempio la media o la deviazione standard. La risposta è sì! Chiaramente il comando varia a seconda della statistica che vuoi trovare. Ti elenco qui di seguito i comandi per ciascuna di loro:

Comando R per calcolare la MEDIA

mean(data\$nome_variabile)

Comando R per calcolare la DEVIAZIONE STANDARD

sd(data\$nome_variabile)

Comando R per calcolare MINIMO e MASSIMO

Per minimo e massimo si intendono rispettivamente il valore più piccolo e quello più grande assunto dalla variabile in esame. 

min(data\$nome_variabile)
max(data\$nome_variabile)

Comando R per calcolare i QUARTILI

I quartili sono in tutto 3: primo quartile (Q1), secondo quartile o mediana (Q2 o Me) e terzo quartile (Q3).

quantile(data\$nome_variabile)

Comando R per calcolare la DIFFERENZA INTERQUARTILE

La differenza o range interquartile è la differenza tra il terzo e il primo quartile, ossia Q3-Q1.

IQR(data\$nome_variabile)

Comando R per calcolare il COEFFICIENTE DI VARIAZIONE

Il coefficiente di variazione è definito come il rapporto tra la deviazione standard e il valore medio. In R non esiste una funzione già pronta per calcolarlo. A questo proposito ti ricorso che R è un ottimo calcolatore! Imposta quindi manualmente la formula seguente:

dev_standard/media


Calcolo delle statistiche descrittive di gruppo

Un'altra funzione che R mette a disposizione è quella per calcolare le statistiche di gruppo. Ma in che senso? Supponi che il tuo dataframe data contiene due variabili, una numerica e l'altra categoriale, ad esempio "altezza" e "sesso".  Supponi inoltre che volessi calcolare media, deviazione standard, quartili, ecc. della variabile altezza separatamente per i due generi maschio e femmina. In questo caso utilizza il comando describeBy contenuto nella libreria psych. Per farlo funzionare devi indicare come primo parametro la variabile numerica (quindi "altezza") e come secondo parametro la variabile categoriale (quindi "sesso") in questo modo:

library(psych)
describeBy(data\$altezza, data\$sesso)

Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.