Webtudordimatematica

Visualizzare struttura e contenuto di un dataset in R

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Hai importato il tuo dataset in R ma non sai come fare per vedere la sua struttura o il suo contenuto in maniera chiara e facilmente leggibile? Continua a leggere per scoprirlo!

Struttura e dimensione di un dataset

Inizio spiegandoti come puoi visualizzare la struttura dei dati precedentemente importati in R. Innanzitutto, importa il tuo file in R. Qui ho importato un file Excel e l'ho memorizzato nell'oggetto data.

library(readxl)
data <- read_excel("il_tuo_dataset.xlsx")

Successivamente, ti consiglio di trasformalo nel formato "data frame", formato che si presta molto bene per molteplici scopi come manipolazione, pulizia e analisi dei dati.

data <- as.data.frame(data)

Sei pronto per visualizzare la struttura di data. Il comando R è str:

str(data)

Questo ti fornisce in console la struttura del dataset che contiene sostanzialmente due informazioni

  • le dimensioni del dataset e in particolare il numero di osservazioni e il numero di variabili, ossia il numero di righe e di colonne rispettivamente
  • l’elenco delle variabili contenute nel dataset. Per ciascuna variabile vengono indicati nome, tipo di dato (chr, num, int, ecc...) e una breve anteprima delle osservazioni che contiene.

Ecco il tipo di output che visualizzi in console:

Visualizzare variabili e contenuto dataset in R

In fondo alla pagina trovi il video di questa lezione che puoi guardare per una maggiore comprensione.

 

Visualizzazione dei dati contenuti in un dataset

Se vuoi visualizzare le osservazioni contenute all'interno del tuo dataset, esistono diverse possibilità. Ti elenco qui di seguito le più utilizzate:

  1. Scrivi il nome dell'oggetto in cui hai memorizzato il dataset e lo lanci. In console ti apparirà tutto il dataset ma, se esso contiene troppe righe e colonne sarà difficile avere una visualizzazione chiara.
  2. Usa il comando head per visualizzare in console solo le prime 6 righe del dataset. Questo comando produce un output simile al primo solo con meno righe. Anche in questo caso però, se hai troppe colonne non vedrai bene i dati.

    head(data)
  3. Infine il terzo e miglior modo per visualizzare i tuoi dati in R è lanciando il comando View.

    View(data)
    Questo crea una finestra nuova accanto a quella corrente in cui i dati vengono intabbellati proprio come in un foglio Excel.

Guarda il video qui sotto se non ti è chiaro qualche passaggio.

Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.