Webtudordimatematica

Cos'è e come si calcola il p-value

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Come già detto nella precedente lezione, non è possibile stabilire con certezza quale delle due ipotesi (nulla o alternativa) sia vera. Tuttavia, è possibile fare un calcolo probabilistico che permette di testare la plausibilità delle due ipotesi in relazione al campione esaminato.

Questo richiede il calcolo del cosiddetto p-value associato a una statistica test calcolata $s_n$. Ma cos'è il p-value e come si calcola?

 

Definizione del valore p

Il p-value o valore p anche detto livello di probabilità, indica quanto probabile è che una statistica test $S_n$ sia almeno pari al valore $s_n$ supposta vera l'ipotesi nulla. In simboli scriveremo:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\mbox{p-value}=P(S_n\ge s_n|H_0\mbox{ vera})}$$

A parole possiamo definire il p-value come la probabilità che, supposta vera l'ipotesi nulla, si ottengano risultati maggiori o uguali di quelli osservati durante il test.

La statistica test è un valore che calcoliamo dai dati a nostra disposizione e può essere una t di Student, una normale, ecc.

Definizione di p value

 

Quando un test è significativo?

Essendo un valore di probabilità, il p-value è un numero compreso tra 0 e 1. In particolare, diremo che:

  1. se $\mbox{p-value }\ge 0,05\quad\Rightarrow\quad$ si dice che il test non è statisticamente significativo (cioè può trattarsi di un effetto casuale del campionamento) e $H_0$ viene accettata;
  2. se $\mbox{p-value }< 0,05\quad\Rightarrow\quad H_0$ viene, in generale, rifiutata e il test viene detto:
    1. statisticamente significativo se $0,01\le\mbox{ p-value }< 0,05$
    2. molto significativo se $0,001\le\mbox{ p-value }< 0,01$
    3. estremamente significativo se $\mbox{p-value }< 0,001$

In generale, dunque, fissato il livello di significatività $\alpha$, la decisione da prendere in seguito all'esecuzione di un test statistico è:

  1. se $\mbox{p-value }<\alpha\quad\Rightarrow\quad$ rifiutiamo $H_0$;
  2. se $\mbox{p-value }\ge\alpha\quad\Rightarrow\quad$ non rifiutiamo $H_0$;

Per questo motivo, il p-value viene spesso denotato come il minimo livello di significatività per il quale l'ipotesi nulla viene rifiutata.

In alternativa al calcolo del p-value, esiste un altro modo per verificare la veridicità dell'ipotesi nulla utilizzando le tavole statistiche (vedi esempio).

 

Come calcolare il p-value manualmente

Il p-value si calcola a partire dalla distribuzione dei dati che generalmente è t di Student o normale. Segue la formula di calcolo del p-value nel caso di una Z normale:

PvalueSchema

 

Tale formula può essere adattata al caso di una distribuzione t di Student sostituendo Z con T. Forniamo un esempio che rende più chiaro il procedimento per calcolare il p-value e quindi per ottenere il risultato di un test statistico.

Esempio

Si vuole verificare l'ipotesi nulla $H_0: \mu=175$ contro l'ipotesi alternativa $H_1: \mu>175$. $\sigma$ è ignoto. Si estrae un campione di 10 elementi la cui media campionaria è $\mu_0=181,5$ e la cui varianza campionaria corretta $S^2 = 95,5067$. Il test è condotto a un livello di significatività $\alpha=0,05$.

 

Svolgimento

Costruiamo la statistica test a partire dallo stimatore naturale del valore atteso, ovvero la media campionaria $\overline{X}=\mu_0$. Standardizzandola otteniamo la statistica test:

$$Z=\frac{\overline{X}-175}{\frac{\sigma}{\sqrt{n}}}\sim (0,1)$$

Ma poichè $\sigma$ è sconosciuta, utilizziamo la varianza campionaria fornita ottenendo la statistica test definitiva:

$$T=\frac{\overline{X}-175}{\frac{S}{\sqrt{n}}}\sim t_9$$

Calcoliamo il valore osservato dalla statistica:

$$t_{oss}=\frac{181,5-175}{\frac{\sqrt{95,5067}}{\sqrt{10}}}=2,103$$

Per un livello di significatività $\alpha=0,05$, dalle tavole statistiche, troviamo il valore critico

$$t_{\frac{\alpha}{2},n-1}=t_{\frac{0,05}{2},10-1}=t_{0,025,9}=2,262$$

Osserviamo dalle tavole che $1,833 < t_{oss}=2,103 < 2,262$, dove $1,833$ è il valore di $t$ corrispondente ad $\alpha=0,05$ e $2,262$ è il valore di $t$ corrispondente ad $\alpha=0,025$. Ne segue che

$$0,025 < \mbox{p-value} < 0,05$$

Ricordando la definizione di p-value, abbiamo che

$$\mbox{p-value }=P(T>t_{oss})=P(T>2,103)$$

Si ha inoltre che:

  1. la distanza tra 1,833 e 2,262 è pari alla loro differenza in valore assoluto, ossia 0,429;
  2. la distanza tra 2,103 e 1,833 è invece 0,27 che equivale al 63% di 0,429.

Dunque, possiamo approssimare il p-value calcolando il valore che sta al 63% della distanza tra 0,025 e 0,05: la distanza tra 0,025 e 0,05 è pari alla loro differenza in valore assoluto, ossia 0,025; il 63% di tale distanza è 0,01575. Però, mentre nel primo caso i valori aumentano(da 1.833 a 2.262), ora diminuiscono (da 0.05 a 0.025), quindi, per trovare il punto la cui distanza da 0,05 è il 63% della distanza da 0,025, devo sottrarre a 0,05 il valore 0,01575:

$$\mbox{p-value }=0,05-0,01575=0,03425$$

Dal p-value ottenuto possiamo dire che poichè è inferiore al livello di significatività $\alpha=0,05$, l'ipotesi nulla può essere rifiutata. Il test, inoltre, risulta statisticamente significativo.

 

p-value nel caso di un test bilaterale

Se il test fosse stato bilaterale, il p-value si sarebbe calcolato moltiplicando il risultato ottenuto per 2:

$$p-value=P(|T|>|t_{oss}|)=2\cdot P(T>t_{oss})$$

 

Vai agli esercizi

 

Calcolare il p-value con il software R

È chiaro che calcolare il p-value manualmente è abbastanza complicato e richiede diversi passaggi matematici. Per fortuna esistono i software che lo fanno al posto nostro. Uno di questi è R e nel video seguente ti spiego come calcolarlo tramite degli esempi.

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.