07. Test delle ipotesi - polimi-notes

# Test delle ipotesi ## Singola popolazione ### Ipotesi statistica Un'ipotesi statistica è un'affermazione riguardo la media o la varianza di una determinata distribuzione. ### Ipotesi nulla $H_0$ Un'ipotesi nulla/alternativa è una coppia di ipotesi nel quale la veridicità di una ipotesi sui campioni esclude l'altra. ### Ipotesi semplice e composta Un'ipotesi semplice è un'ipotesi la quale, se vera con i nostri campioni, ci permette di descrivere completamente la nostra distribuzione. Composta viceversa. ### Errore di prima specie e di seconda specie Un **errore di prima specie** è quando consideriamo $H_0$ non compatibile con i nostri dati ma in realtà è vera. Un **errore di seconda specie** è quando accettiamo l'ipotesi $H_0$ compatibile con la popolazione ma in realtà è falsa. Consideriamo gli errori di prima specie più gravi degli errori di seconda. ### P-value P-value è il valore più basso di $\alpha$ per cui **non accettiamo la nostra ipotesi $H_1$**, quindi per $\alpha$ maggiori del p-value continueremo a non accettare l'ipotesi. Un P-value quasi uguale a zero significa che siamo praticamente certi di non sbagliare rifiutando l’ipotesi $H_0$. Un P-value molto maggiore indica invece che a qualsiasi livello ragionevole di significatività, non rifiutiamo l’ipotesi nulla; in questo caso si può anche dire che il test ci porta ad accettare l’ipotesi. Il P-value può essere difficile da calcolare con precisione usando le tavole, quindi negli esercizi ci limiteremo a fare stime intervallari di quest'ultime (in un software ovviamente possiamo facilmente trovare una stima puntuale). ### Curva OC $\beta$ è definita come la probabilità di accettare l'ipotesi **nulla** in funzione del parametro che stiamo testando. Di conseguenza se il parametro incognita soddisfa l'ipotesi alternativa, la curva OC rappresenta una probabilità d'errore di II specie. ### Potenza del test $\pi(\theta)=1 - \beta$ è la funzione in funzione del parametro incognito $\theta$ che è definita come la probabilità di rifiutare l'ipotesi nulla e quindi accettare l'ipotesi alternativa. *La potenza del test è la possibilità di rigettare l'ipotesi nulla quando è giusto farlo ( cioe' quando $H_0$ è falsa ).* **Esempio:** *Nel caso in l'ipotesi alternativa viene soddisfatta per $T_0 >t$* $\pi(\theta)=P_{\theta}(T_o>t_{\theta})$ con $\theta = \frac{\Theta }{\Theta _0}$ La potenza del test aumenta quanto maggiore è il numero dei soggetti del campione. La potenza del test aumenta passando da un $\alpha$ di 0.05 a uno di 0.1 ma così facendo aumenta anche il rischio di rigettare una ipotesi nulla vera. ### Test Z Test su media di una popolazione gaussiana con varianza nota. ### Test T Test su media una popolazione gaussiana con varianza incognita. ## Test su due popolazioni ### Test T Test su medie con varianze incognite ma uguali (f di Fisher). $T_0=\frac{\bar X_n - \bar Y_n}{\sqrt{S_p^2(\frac{1}{n_x}+\frac{1}{n_y})}}$ dove $S_p²$ è la stima combinata della deviazione standard generale: $S_p^2=\frac{(n_x-1)S_x^2+(n_y-1)S^2_y}{n_x+n_y-2}$ ### Test F Il test F viene utilizzato per confrontare la varianza di due popolazioni normali indipendenti, assumendo che le popolazioni siano normalmente distribuite e abbiano la stessa media. Il test F é basato sulla distribuzione F di Fisher. Caso unilaterale: $P(\frac{\frac{S^2_x}{\sigma ^2 _x}}{\frac{S^2_x}{\sigma^2_y}}>f_{0.01 , n,m})=P({\frac{\sigma^2_y}{\sigma^2_x}} > f_{0.01 , n,m}\frac{S^2_y}{S^2_x})=P({\frac{\sigma^2_x}{\sigma^2_y}} \le f_{0.99 , m,n}\frac{S^2_x}{S^2_y})$ ### Test $\chi ²$ di buon adattamento Il test chi-quadrato consiste nel verificare se le frequenze osservate corrispondono alle frequenze attese. Nel caso di una sola variabile di misura, si utilizza il test della bontà di adattamento del chi-quadrato. L'idea alla base del test è di confrontare i valori osservati nei dati e quelli attesi qualora l'ipotesi nulla fosse vera. Dato $f_i$ le frequenze osservate di ciascuna modalità, $p_i$ le probabilità teoriche di ciascuna modalità e $n$ la numerosità del campione e k il numero delle modalità/classi del campione. $X^2 = \sum ^k _{i=1}\frac{(f_i - np_i)}{np_i}$ Rifiuto $H_0$ se $X^2 \ge X^2_{v,\alpha}$ (dove $\alpha$ è la significatività e $v$ sono $k-1$).