Webtudordimatematica

Come calcolare le statistiche descrittive con R

In questo articolo ti parlo su come calcolare tutte le statistiche descrittive di un dataset con R. In particolare, ti mostrerò 3 modi per farlo:

  1. Calcolo delle statistiche descrittive di un intero dataset o dataframe
  2. Calcolo di una specifica statistica descrittiva (indice di posizione o dispersione)
  3. Calcolo delle statistiche descrittive di gruppo

Inoltre, se vuoi vedere un esempio pratico guarda il video che trovi in fondo alla pagina.

Statistiche descrittive di un intero dataset

Il comando R calcola automaticamente le principali statistiche descrittive è descr contenuto nella library summarytools. Supponi che il tuo dataset è stato salvato nell'oggetto data, allora i comandi

library(summarytools)
descr(data)

permettono di calcolare le statistiche descrittive di tutte le variabili numeriche contenute in data. Di seguito un esempio di output generato in console:

Statistiche descrittive con R

Se il dataset dovesse contenere delle variabili categoriali o fattore (cioè variabili qualitative), il comando descr le ignorerà perché appunto non ha senso calcolare, ad esempio, media e varianza per variabili che esprimono delle qualità.

La funzione descr permette anche di calcolare le statistiche descrittive di una singola variabile contenuta in data. In questo caso tra parentesi devi specificare il nome della variabile preceduto dal simbolo "$":

descr(data\$nome_variabile)

 

Calcolo di una specifica statistica descrittiva

Immagino ti stai già chiedendo se c'è un modo per calcolare una specifica statistica, ad esempio la media o la deviazione standard. La risposta è sì! Chiaramente il comando varia a seconda della statistica che vuoi trovare. Ti elenco qui di seguito i comandi per ciascuna di loro:

Comando R per calcolare la MEDIA

mean(data\$nome_variabile)

Comando R per calcolare la DEVIAZIONE STANDARD

sd(data\$nome_variabile)

Comando R per calcolare MINIMO e MASSIMO

Per minimo e massimo si intendono rispettivamente il valore più piccolo e quello più grande assunto dalla variabile in esame. 

min(data\$nome_variabile)
max(data\$nome_variabile)

Comando R per calcolare i QUARTILI

I quartili sono in tutto 3: primo quartile (Q1), secondo quartile o mediana (Q2 o Me) e terzo quartile (Q3).

quantile(data\$nome_variabile)

Comando R per calcolare la DIFFERENZA INTERQUARTILE

La differenza o range interquartile è la differenza tra il terzo e il primo quartile, ossia Q3-Q1.

IQR(data\$nome_variabile)

Comando R per calcolare il COEFFICIENTE DI VARIAZIONE

Il coefficiente di variazione è definito come il rapporto tra la deviazione standard e il valore medio. In R non esiste una funzione già pronta per calcolarlo. A questo proposito ti ricorso che R è un ottimo calcolatore! Imposta quindi manualmente la formula seguente:

dev_standard/media


Calcolo delle statistiche descrittive di gruppo

Un'altra funzione che R mette a disposizione è quella per calcolare le statistiche di gruppo. Ma in che senso? Supponi che il tuo dataframe data contiene due variabili, una numerica e l'altra categoriale, ad esempio "altezza" e "sesso".  Supponi inoltre che volessi calcolare media, deviazione standard, quartili, ecc. della variabile altezza separatamente per i due generi maschio e femmina. In questo caso utilizza il comando describeBy contenuto nella libreria psych. Per farlo funzionare devi indicare come primo parametro la variabile numerica (quindi "altezza") e come secondo parametro la variabile categoriale (quindi "sesso") in questo modo:

library(psych)
describeBy(data\$altezza, data\$sesso)

Il quaderno degli appunti
Statistica e Probabilità

Tavola della distribuzione normale standard: come leggerla

La tavola della distribuzione normale standard ti permette di calcolare la probabilità a sinistra di un dato quantile o viceversa trovare il valore d
Analisi matematica

Calcolo delle derivate

La teoria dell'analisi matematica ci dice che, a norma di definizione, il calcolo della derivata di una funzione equivale al calcolo del limite del ra
Trigonometria

Teorema della corda, teorema delle proiezioni, teorema dei seni e dei coseni

Teorema della corda La misura di una corda di una circonferenza è uguale al prodotto tra la misura del diametro ed il seno di uno qualunque degli ang