假设检验的定义

假设检验： 通过收集到的数据，来验证某个想要得到的结论

这里对比两个完全对立的假设：原假设(零假设) $H_{0}$ 与备择假设 $H_{1}$ 两者的选取原则不同：

简单假设设为 $H_{0}$ ，复合假设设为 $H_{1}$ 。简单假设即是只包括一个参数值的假设。
将如果误判会造成重大后果的问题选为原假设
将分析人员试图证明其正确的命题选为备择假设
将普遍认为成立的命题选为原假设

故假设检验的总体思想：

不轻易拒绝原假设
小概率事件发生不正常

临界值法

拒绝域： 若统计量T = T( $X_{1},X_{2},...,X_{n}$ )的取值大小和原假设 $H_{0}$ 是否成立密切相关，则可将其作为对应假设问题的检验统计量。拒绝原假设 $H_{0}$ 时样本值的集合称为拒绝域，其补集称为接受域。

两类错误：

第一类错误：若原假设为真，却被检验拒绝——（在拒绝域中）
第二类错误：若原假设为假，却被检验接受——（不在拒绝域中） 第一类错误的概率：

\alpha = P(拒绝H_{0} | H_{0}为真) = P_{H0}(在拒绝域内)

第二类错误的概率：

\beta = P(接受H_{0}| H_{0}为假) = P_{H1}(不在拒绝域内)

拒绝域的选取例子：

Neyman-Person准则：

即在选取拒绝域时，首先控制犯第一类错误的概率不超过某个给定常数 $\alpha$ ，再寻找检验使得犯第二类错误的概率尽可能小

显著水平：

即犯第一类错误概率的最大值，也可叫做检验水平。

功效： 即 1 - 犯第二类错误的概率。

p-值法

定义： 当原假设 $H_{0}$ 成立时，检验统计量取比观察到的结果更为极端的概率称为p-值。说明：

p值越小，越有理由拒绝原假设 $H_{0}$
基本思想：若 $H_{0}$ 为真，则检验统计量需要服从某种分布。若观察到的结果在分布中处于“极端”位置，则说明时小概率事件，有理由拒绝 $H_{0}$ 的真实性。
p值与拒绝域的方法本质相同。例如取显著水平为 $\alpha = 0.05$ ，则“p值小于0.05”等价于“样本值落入显著水平为0.05的拒绝域中”

假设检验与置信区间的关系

定理： 假设总体X中有未知参数 $\theta$ ，样本为 $X_{1},X_{2},...X_{n}$ ,即为 $X = \{X_{1},X_{2},...,X_{n}\}$ 。假设对于每个给定的 $\theta_{0}$ ，关于原假设 $H_{0}: \theta = \theta_{0}$ 都有一个显著水平为 $\alpha$ 的检验，其接受域记为 $A(\theta_{0})$ 。定义集合C(X) = { $\theta_{0}: X \in A(\theta_{0})$ }，则C(X)为 $\theta$ 的一个置信水平为 $1 - \alpha$ 的置信区间，即：

P_{\theta}(\theta \in C(X)) = 1 - \alpha

单个正态总体方差的假设检验

设总体X $\in N(\mu, \sigma^{2})$ ，其中 $\mu, \sigma^{2}$ 未知。样本为 $X_{1},...,X_{n}$ 。考虑检验问题

H_{0}: \sigma^{2} = \sigma_{0}^{2} \quad vs \quad H_{1}: \sigma^{2} \neq \sigma_{0}^{2}

其中 $\sigma_{0}$ 已知选取检验统计量应为：

\frac{(n-1)S^{2}}{\sigma_{0}^{2}} \sim x^{2}(n-1)

则应该选取拒绝域为：

\{\frac{(n-1)S^{2}}{\sigma_{0}^{2}} <= c_{1} or\ge c_{2}\}

为使得显著水平为 $\alpha$ ，则选取 $c_{1} = c_{2} = x_{\frac{\alpha}{2}}^{2}(n-1)$ 该检验方法即为 $x^{2}$ 检验

p值的计算：

拟合优度检验

存在问题： $H_{0}$ :总体服从某个分布； $H_{1}$ 总体不服从；

具体步骤：

在 $H_{0}$ 下，将总体X的取值划分为k个两两不相交的子集 $A_{1},A_{2},...,A_{k}$
用 $n_{k}$ 记录样本观测值落在 $A_k$ 之间的个数，记作实际频数
当 $H_{0}$ 为真时，且X的累计分布函数 $F_{0}(x)$ 完全已知时，得到 $p_{i}$ ；若累计分布函数中有r个未知参数时，使用极大似然估计得到事件 $A_{i}$ 的发生概率记作 $\hat{p}_{i}$ .此时称 $np_{i} 或 n \hat{p_{i}}$ 为理论频数
取检验统计量： $Q = \sum\limits_{i=1}^{k}\frac{(n_{i} - np_{i})^{2}}{np_{i}}$

**定理：** 若n充分大，则当$H_{0}$为真时，$Q \sim x^{2}(k-1)$，或$Q \sim x^{2}(k-r-1)$ 拒绝域显然可以得到为：

{Q \ge x_{\alpha}^{2}(k-1)}

或

{Q \ge x_{\alpha}^{2}(k-r-1)}