Webtudordimatematica

Distribuzione t di Student e media campionaria

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

La distribuzione campionaria

Si definisce campione aleatorio un insieme di numeri aleatori $X_1,X_2,\dots ,X_n$ indipendenti e con la stessa distribuzione $f$.

In altre parole, ogni numero aleatorio, non è altro che un campione di ampiezza $n$ estratto da una popolazione, a cui è associato una densità di probabilità $f$. Per ogni campione $X_i$, quindi, possiamo calcolare una data statistica, come la media o la varianza, che differisce dalle statistiche degli altri campioni. Otteniamo, così, una distribuzione della statistica stessa.

Si chiama distribuzione campionaria o di campionamento di una data statistica, la distribuzione dei possibili valori che possono essere assunti dalla statistica stessa, calcolati da campioni casuali ($X_1,X_2,\dots ,X_n$) della stessa dimensione ($n$) estratti dalla stessa popolazione.

Una distribuzione campionaria è dunque la distribuzione congiunta di $X_1,X_2,\dots ,X_n$ numeri aleatori indipendenti:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{f(X_1,X_2,\dots ,X_n)=f(X_1)\cdot f(X_2)\dots f(X_n)}$$

Inoltre, con l'n-upla $(X_1,X_2,\dots ,X_n)$ si indica un'osservazione o realizzazione del campione

Distribuzione della media campionaria con varianza $\sigma_X^2$ nota

La media campionaria delle $n$ osservazioni $X_1,X_2,\dots ,X_n$ è la loro media aritmetica e si indica con $\overline{X}$:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{X}=\frac{X_1+X_2+\dots +X_n}{n}}$$

Poichè i vari $X_i$ vengono estratti in maniera casuale, anche $\overline{X}$ è una variabile casuale.

Proprietà della distribuzione della media campionaria

Si dimostrano facilmente che la distribuzione della media campionaria $\overline{X}$ gode delle seguenti proprietà:

  1. se $X_1,X_2,\dots ,X_n$ sono dei campioni casuali e indipendenti di ampiezza $n$ estratti da una popolazione con media $\mu_X$ e varianza $\sigma_X^2$, allora, la distribuzione della media campionaria $\overline{X}$ ha media $$\mu_{\overline{X}}=E(\overline{X})=\mu_X$$
  2. sotto le stessi condizioni del punto precedente, la varianza della distribuzione della media campionaria $\overline{X}$ ha varianza $$\sigma_{\overline{X}}^2=VAR(\overline{X})=\frac{\sigma_X^2}{n}$$

Tali risultati vengono fuori dalle proprietà del valore atteso e della varianza. Infatti:

$\begin{array}{l} E(\overline{X})=E\left(\frac{X_1+X_2+\dots +X_n}{n}\right)=\frac{1}{n}\left[E(X_1)+E(X_2)+\dots +E(X_n)\right]=\frac{1}{n}\cdot n\cdot\mu=\mu\\ VAR(\overline{X})=VAR\left(\frac{X_1+X_2+\dots +X_n}{n}\right)=\frac{1}{n^2}\left[VAR(X_1)+VAR(X_2)+\dots +VAR(X_n)\right]=\frac{1}{n^2}\cdot n\cdot\sigma_X^2=\frac{\sigma_X^2}{n}\end{array}$

Banalmente, l'errore standard della media è la radice quadrata della varianza:

$$\sigma_{\overline{X}}=\sqrt{\sigma_{\overline{X}}}=\frac{\sigma_X}{\sqrt{n}}$$

Queste proprietà, però, non ci forniscono molte informazioni circa la natura della distribuzione della media campionaria. Tuttavia, nel caso in cui i campioni estratti hanno distribuzione normale, possiamo avere informazioni più precise al riguardo.

Distribuzione della media campionaria $\overline{X}$ quando $X_i$ sono distribuiti normalmente

Se i campioni $X_i\sim N(\mu_X,\sigma_X^2)\ \forall$, con lo stesso procedimento applicato per dimostrare le proprietà della distribuzione della media campionaria, si ha

$$\overline{X}\sim N\left(\mu_X,\frac{\sigma_X^2}{n}\right)$$

Altri risultati che ci vengono incontro in questo senso, quando la numerosità del campione aumenta sono la Legge dei Grandi Numeri e il Teorema del Limite Centrale

Distribuzione della media campionaria con varianza $\sigma^2$ incognita

Nel caso in cui la varianza della popolazione $\sigma^2$ non è nota, abbiamo risultati nei due casi seguenti:

  1. se il numero $n$ del campione è grande, si può sostituire $\sigma^2$ con la nota varianza del campione $s^2$;
  2. se, invece, l'ampiezza del campione è piccola si hanno risultati solo se tale campione proviene da una distribuzione normale.

Infatti, vale il seguente risultato.

 

Data una popolazione normale avente media $\mu$ da cui si estraggono campioni casuali ampiezza $n$, indicando con $\overline{X}$ la media campionaria e con $S$ lo scarto quadratico medio campionario (o deviazione standard campionaria), la variabile

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}}$$

é una variabile aleatoria avente distribuzione t di Student con grado di libertà $\nu=n-1$.

La distribuzione t di Student, pseudonimo che utilizzò l'inventore William S. Gosset, rappresenta una famiglia di distribuzioni dipendenti dal parametro $\nu$ detto grado di libertà.

Il grafico qui sotto mostra la funzione di densità per una distribuzione t di Student con 1,2,5 e infiniti gradi di libertà.

Funzione di densità della distribuzione t di Student

Come si vede dal grafico, la distribuzione t è molto simile alla normale: entrambe campanulari e simmetriche attorno alla media $\mu=0$.

Si può dimostrare che la distribuzione t con $\nu$ gradi di libertà tende alla distribuzione normale standart (N(0,1)), al tendere di $\nu$ ad infinito.

Negli esercizi la t di student viene approssimata ad una normale standard quando $\nu\ge 30$. Non a caso, nelle tavole statistiche i valori dell'area sotto la curva, vengono spesso tabulati fino a $\nu=29$. Per valori di $\nu$ maggiori o uguali a 30, possiamo andare a leggere il valore dell'area nelle tavole della distribuzione normale.

Forse ti interessa pure la distribuzione della varianza campionaria.

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.