La distribuzione campionaria
Si definisce campione aleatorio un insieme di numeri aleatori $X_1,X_2,\dots ,X_n$ indipendenti e con la stessa distribuzione $f$.
In altre parole, ogni numero aleatorio, non è altro che un campione di ampiezza $n$ estratto da una popolazione, a cui è associato una densità di probabilità $f$. Per ogni campione $X_i$, quindi, possiamo calcolare una data statistica, come la media o la varianza, che differisce dalle statistiche degli altri campioni. Otteniamo, così, una distribuzione della statistica stessa.
Si chiama distribuzione campionaria o di campionamento di una data statistica, la distribuzione dei possibili valori che possono essere assunti dalla statistica stessa, calcolati da campioni casuali ($X_1,X_2,\dots ,X_n$) della stessa dimensione ($n$) estratti dalla stessa popolazione.
Una distribuzione campionaria è dunque la distribuzione congiunta di $X_1,X_2,\dots ,X_n$ numeri aleatori indipendenti:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{f(X_1,X_2,\dots ,X_n)=f(X_1)\cdot f(X_2)\dots f(X_n)}$$
Inoltre, con l'n-upla $(X_1,X_2,\dots ,X_n)$ si indica un'osservazione o realizzazione del campione
Distribuzione della media campionaria con varianza $\sigma_X^2$ nota
La media campionaria delle $n$ osservazioni $X_1,X_2,\dots ,X_n$ è la loro media aritmetica e si indica con $\overline{X}$:
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{X}=\frac{X_1+X_2+\dots +X_n}{n}}$$
Poichè i vari $X_i$ vengono estratti in maniera casuale, anche $\overline{X}$ è una variabile casuale.
Proprietà della distribuzione della media campionaria
Si dimostrano facilmente che la distribuzione della media campionaria $\overline{X}$ gode delle seguenti proprietà:
- se $X_1,X_2,\dots ,X_n$ sono dei campioni casuali e indipendenti di ampiezza $n$ estratti da una popolazione con media $\mu_X$ e varianza $\sigma_X^2$, allora, la distribuzione della media campionaria $\overline{X}$ ha media $$\mu_{\overline{X}}=E(\overline{X})=\mu_X$$
- sotto le stessi condizioni del punto precedente, la varianza della distribuzione della media campionaria $\overline{X}$ ha varianza $$\sigma_{\overline{X}}^2=VAR(\overline{X})=\frac{\sigma_X^2}{n}$$
Tali risultati vengono fuori dalle proprietà del valore atteso e della varianza. Infatti:
$\begin{array}{l} E(\overline{X})=E\left(\frac{X_1+X_2+\dots +X_n}{n}\right)=\frac{1}{n}\left[E(X_1)+E(X_2)+\dots +E(X_n)\right]=\frac{1}{n}\cdot n\cdot\mu=\mu\\ VAR(\overline{X})=VAR\left(\frac{X_1+X_2+\dots +X_n}{n}\right)=\frac{1}{n^2}\left[VAR(X_1)+VAR(X_2)+\dots +VAR(X_n)\right]=\frac{1}{n^2}\cdot n\cdot\sigma_X^2=\frac{\sigma_X^2}{n}\end{array}$
Banalmente, l'errore standard della media è la radice quadrata della varianza:
$$\sigma_{\overline{X}}=\sqrt{\sigma_{\overline{X}}}=\frac{\sigma_X}{\sqrt{n}}$$
Queste proprietà, però, non ci forniscono molte informazioni circa la natura della distribuzione della media campionaria. Tuttavia, nel caso in cui i campioni estratti hanno distribuzione normale, possiamo avere informazioni più precise al riguardo.
Distribuzione della media campionaria $\overline{X}$ quando $X_i$ sono distribuiti normalmente
Se i campioni $X_i\sim N(\mu_X,\sigma_X^2)\ \forall$, con lo stesso procedimento applicato per dimostrare le proprietà della distribuzione della media campionaria, si ha
$$\overline{X}\sim N\left(\mu_X,\frac{\sigma_X^2}{n}\right)$$Altri risultati che ci vengono incontro in questo senso, quando la numerosità del campione aumenta sono la Legge dei Grandi Numeri e il Teorema del Limite Centrale
Distribuzione della media campionaria con varianza $\sigma^2$ incognita
Nel caso in cui la varianza della popolazione $\sigma^2$ non è nota, abbiamo risultati nei due casi seguenti:
- se il numero $n$ del campione è grande, si può sostituire $\sigma^2$ con la nota varianza del campione $s^2$;
- se, invece, l'ampiezza del campione è piccola si hanno risultati solo se tale campione proviene da una distribuzione normale.
Infatti, vale il seguente risultato.
Data una popolazione normale avente media $\mu$ da cui si estraggono campioni casuali ampiezza $n$, indicando con $\overline{X}$ la media campionaria e con $S$ lo scarto quadratico medio campionario (o deviazione standard campionaria), la variabile
$$\bbox[#ffffff,5px,border:2px solid #ff6600]{T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}}$$
é una variabile aleatoria avente distribuzione t di Student con grado di libertà $\nu=n-1$.
La distribuzione t di Student, pseudonimo che utilizzò l'inventore William S. Gosset, rappresenta una famiglia di distribuzioni dipendenti dal parametro $\nu$ detto grado di libertà.
Il grafico qui sotto mostra la funzione di densità per una distribuzione t di Student con 1,2,5 e infiniti gradi di libertà.
Come si vede dal grafico, la distribuzione t è molto simile alla normale: entrambe campanulari e simmetriche attorno alla media $\mu=0$.
Si può dimostrare che la distribuzione t con $\nu$ gradi di libertà tende alla distribuzione normale standart (N(0,1)), al tendere di $\nu$ ad infinito.
Negli esercizi la t di student viene approssimata ad una normale standard quando $\nu\ge 30$. Non a caso, nelle tavole statistiche i valori dell'area sotto la curva, vengono spesso tabulati fino a $\nu=29$. Per valori di $\nu$ maggiori o uguali a 30, possiamo andare a leggere il valore dell'area nelle tavole della distribuzione normale.
Forse ti interessa pure la distribuzione della varianza campionaria.