概率统计

第一章随机事件和概率

随机事件和运算

随机试验与随机事件

随机试验

随机试验，简称试验 E
性质：
- 可在相同条件下重复进行
- 所有可能结果不止一个，且在试验前已知
- 每次试验结果应在已知所有可能结果中，且事先无法预知

随机事件

试验的每个可能的结果为随机事件，简称事件
- 用大写字母表示
必然事件 $\it\Omega$
- 每次试验必然出现的结果
不可能事件 $\it\Phi$
- 每次试验必然不出现的结果
基本事件 / 样本点 ω，ν，τ，⋯
- 一个试验中最简单的单一事件
- 非无穷，无穷可数，无穷不可数

样本空间 Ω/S

所有样本点组成的集合
随机事件是样本空间的子集
- 样本点在事件 A 内， ω ∈ A，称事件 A 发生
- 否则 ω ∉ A，称事件 A 不发生
由于每次试验中 $\it\Omega$ 必然发生，因此是必然事件
空集 $\it\Phi$ 不包含任何样本点，每次试验必不发生，因此是不可能事件

随机事件关系与运算

关系

包含关系
- 事件 B 发生，必然导致事件 A 发生，事件 B 包含于事件 A，事件 A 包含事件 B
- B ⊂ A，A ⊃ B
相等关系
- 若 B ⊂ A 且 A ⊃ B，则称事件 A 与 B 相等
- A = B

运算

事件的并
- 使得事件 A 与 B 中至少有一个发生的事件，这个事件称为 A 与 B 的并
- A ∪ B = {ω | ω ∈ A ∨ ω ∈ B}
事件的交
- 使得事件 A 与 B 同时发生的事件，这个事件称为 A 与 B 的交
- A ∩ B = {ω | ω ∈ A ∧ ω ∈ B}
- 符号可省略，读作 A 乘 B
事件的差
- 使得 A 发生而 B 不发生的事件，这个事件称为 A 与 B 的差
- A − B = {ω | ω ∈ A ∧ ω ∉ B}
对立事件
- 所有不属于事件 A 的基本事件组成的事件，称为事件 A 的对立事件
- $\overline{A} = \{\omega\ |\ \omega \in \mathit\Omega \wedge \omega \not\in A\}$
- 事件与对立事件
  - A ∪ A = Ω
  - $A\overline{A} = \varnothing$
  - $\overline{\overline{A}} = A$
  - $A - B = A\ \overline{B}$
  - 必然事件与不可能事件互斥
互不相容
- 若 A B = ⌀，称事件 A 与 B 互不相容或互斥
- 若 n 个事件两两交集为空，则 n 个事件互不相容
- 互为对立的两事件必为互不相容，反之未必成立
- 两事件互不相容，则两事件的并读作加， A ∪ B = A + B

运算规律

交换律 $$ \begin{aligned} A\cup B &= B\cup A\\ AB&=BA \end{aligned}$$
结合律 $$ \begin{aligned} (A\cup B)\cup C &= A\cup(B\cup C)\\ (AB)C &= A(BC) \end{aligned} $$
分配律 $$ \begin{aligned} A\cup(BC) &= (A\cup B)(A\cup C)\\ A(B\cup C) &= (AB)\cup(AC) \end{aligned} $$
对偶律 (De Morgan 定理)
- 对于两事件 $$ \begin{aligned} \overline{A \cup B} &= \overline{A}\ \overline{B}\\ \overline{AB} &= \overline{A}\cup\overline{B} \end{aligned} $$
- 对于 n 个或无穷事件 $$ \overline{\bigcup_{i=1}^nA_i} $$
运算顺序：对立 > 交 > 并 & 差，括号优先

概率

概率的定义

随机事件 A 发生可能性大小的数值度量，称为 A 的概率，记为 P(A)
设 E 是一个随机试验， $\it \Omega$ 是它的样本空间，对于 E 的每个事件 A 赋予一个实数，记为 P(A)，若 P( ⋅ ) 满足以下公理：
1. 非负性：
  - 对于每一个事件 A，有 P(A) ≥ 0
2. 规范性
  - 对于必然事件 $\it\Omega$，有 $P(\it \Omega)=1$
3. 可列可加性
  - 对于两两互不相容的事件 A₁，A₂，⋯，A_n，⋯，即 A_iA_j = ⌀，i ≠ j，i，j = 1，2，⋯，有 $$P\left(\bigcup_{i=1}^{+\infty}A_i\right)=\sum_{i=1}^{+\infty}P(A_i)$$ 则称 P(A) 为事件 A 的概率

频率的定义

如果事件 A 在 n 次重复试验中发生了 m 次，则称比值 $\dfrac mn$ 为在这 n 次重复试验中事件 A 发生的频率，记为 $$ f_n(A)=\frac mn $$
性质：
1. 对于任意事件 A， 0 ≤ f_n(A) ≤ 1
2. f_n(Ω) = 1
3. 若事件 A₁，A₂，⋯，A_n 两两互不相容，则 $$ f_n\left(\bigcup_{i=1}^{+\infty}A_i\right)=\sum_{i=1}^{+\infty}f_n(A_i)$$

统计概率

设随机试验 A 在 n 次重复试验中发生了 m 次. 当 n 很大时，频率 $f_n(A) = \dfrac mn$ 稳定在某一数值 p (0 < p < 1) 附近波动，且随着次数增大，波动幅度越来越小，则称数值 p 为事件 A 的 (统计) 概率

古典概率

定义：满足以下条件：
- 样本空间包含有限个样本点， Ω = {ω₁，ω₂，⋯，ω_N}
- 每个样本点的发生是等可能的， P(ω₁) = P(ω₂) = ⋯ = P(ω_N)
样本空间为必然事件， P(Ω) = 1，则有 $$ P\{\omega_i\}=\frac1N $$
事件 A = {ω_i₁，ω_i₂，⋯，ω_{i_M}} 的概率为 $$ P(A)=\frac {M}{N} = \frac{A\ 包含样本点个数}{\mathit\Omega\ 中样本点的总数} $$

几何概型

定义：满足以下条件：
- 样本空间中每个样本点与一个测度有限的几何区域中的点一一对应;
- 任意事件 A 与区域 S 的一个子区域 G 对应， A 的概率 P(A) 仅与 G 的测度成正比，与 G 的形状与在 S 中的位置无关，即 $$ P(A)=\frac{m(G)}{m(S)} $$ 其中 m( ⋅ ) 表示区域的测度

概率基本性质

P(⌀) = 0
有限可加性：n 个事件 A₁，A₂，⋯，A_n 满足 A_iA_j = ⌀， $$ P\left(\bigcup_{i=1}^{n}A_i\right)=\sum_{i=1}^{n}P(A_i) $$
对立事件：对于任意事件， $$ P(\overline A)=1-P(A) $$
单调不减性：对于任意两个事件 A，B，若 A ⊂ B，则有 P(B − A) = P(B) − P(A)，P(B) ≥ P(A)
加法定理：对于任意两个事件 A，B， P(A ∪ B) = P(A) + P(B) − P(AB)

一般地，对于 n 个事件 A₁，A₂，⋯，A_n， $$ P\left(\bigcup_{i=1}^{n}A_i\right)=\sum_{i=1}^{n}P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\sum_{1\le i<j<k\le n}P(A_iA_jA_k)+\cdots+(-1)^{n-1}P(A_1A_2\cdots A_n) $$

右侧共 $\sum\limits_{k=1}^nC_k^n = 2^n-1$ 项
事件差： P(B − A) = P(B) − P(AB)

条件概率

定义：设 A， B 为两事件， P(A) > 0，，则事件 A 发生的条件下事件 B 发生的条件概率为 $$P(B\ |\ A) = \frac{P(AB)}{P(A)}$$
当 B ⊂ A 时，$$P(B\ |\ A) = \frac{P(AB)}{P(A)} = \frac{P(B)}{P(A)}\ge P(B)$$

乘法公式

$$ \begin{aligned} P(AB) &= P(A)\ P(B\ |\ A)\quad(P(A)>0)\\ &=P(B)\ P(A\ |\ B)\quad(P(B)>0) \end{aligned} $$

推广：

P(A₁A₂⋯A_n) = P(A₁) P(A₂ | A₁)⋯P(A_n | A₁A₂⋯A_n − 1) (P(A₁A₂⋯A_n − 1) > 0)

全概率公式

若事件 B₁，B₂，⋯，B_n 满足

$$ \bigcup_{i=1}^nB_i = \mathit \Omega， B_iB_j = \varnothing $$

称上述事件组为完备事件组，或样本空间 $\it \Omega$ 的一个划分

若事件 A 落在样本空间内，与划分中的任意一个 B_i 都有可能有交集，则事件 A 的概率与划分有关

$$ A = \bigcup_{i=1}^nAB_i，(AB_i)(AB_j) = \varnothing $$

则 P(A) 的概率可由全概率公式给出

$$ P(A) = \sum_{i=1}^n P(AB_i) = \sum_{i=1}^n P(B_i)\cdot P(A\ |\ B_i) $$

对于 A 的全体的概率被分解为多个部分之和
事件 A 的发生由原因 B_i 引起，则 P(AB_i) = P(B_i) P(A | B_i)，事件 A 的全体为所有原因的总和

Bayes 公式

在事件 A 已发生的条件下，求导致 A 发生的每个原因的概率，可由 Bayes 公式求出

$$ \begin{aligned} P(B_k\ |\ A) = \dfrac{P(AB_k)}{P(A)} &= \dfrac{P(B_k)\ P(A\ |\ B_k)}{P(A)} \\ &= \dfrac{P(B_k)\ P(A\ |\ B_k)}{\displaystyle\sum\limits_{i=1}^nP(B_i)\ P(A\ |\ B_i)} \end{aligned} $$

P(B_i) 先验概率
- 由以往经验得到
P(B_i | A) 后验概率
- 得到信息：A 发生的概率后，对 A 发生的原因的可能性大小进行修正

事件的独立性

定义：任意两个事件 A，B，若满足 P(AB) = P(A) P(B) 则称事件 A 与事件 B 相互独⽴，简称 A 与 B 独⽴，即 $$P(A\ |\ B) = P(A) = P(A\ |\ \overline B)$$
推广：若事件 A₁，A₂，A₃ 满足 $$ \begin{aligned} &\begin{cases} P(A_1A_2) = P(A_1)\ P(A_2)\\ P(A_1A_3) = P(A_1)\ P(A_3)\\ P(A_2A_3) = P(A_2)\ P(A_3) \end{cases}\\ &P(A_1A_2A_3) = P(A_1)\ P(A_2)\ P(A_3) \end{aligned} $$

则称三个事件相互独立
辨析：两两独立与相互独立
性质
- 对称性：两事件相互独立是相互对称的
- P(A) > 0，则 P(B) = P(B | A)
- P(B) > 0，则 P(A) = P(A | B)
- 若 P(A)，P(B) > 0，则 “相互独立” 与 “互斥” 不能同时成立
  - 若互斥则一个发生另一个必不发生
- 若四对事件 $A，B;A，\overline B; \overline A， B;\overline A， \overline B$ 任意一对事件相互独立，则其余三对也分别相互独立
- 若 n 个事件相互独立，则将这 n 个事件任意分成 k 组，同一事件不能同时属于两个不同的组，则对每组的事件进行求和、积、差、对立等运算所得到的 k 个事件也相互独立

利用独立事件的性质计算并事件的概率

若 A₁，A₂，⋯，A_n 相互独立，则 $$ P\left(\bigcup_{i = 1}^nA_i\right) = 1 - \prod_{i = 1}^n(1 - P(A_i)) $$

当 P(A_i) = p， $$ P\left(\bigcup_{i = 1}^nA_i\right) = 1-(1-p)^n $$

伯努利试验概型

n 重伯努利试验概型：

重复试验 n 次
每次试验只有两种可能的结果 $A，\overline A$
每次试验的结果与其它次试验无关：n 次试验是相互独立的

事件 A 出现 k 的概率，记为 P_n(k)，若 P(A) = p，0 < p < 1

P_n(k) = C_n^k p^k (1 − p)^n − k， k = 0，1，2，⋯，n

第二章随机变量及其分布

随机变量及其分布函数

随机变量

定义：设随机试验的样本空间是 Ω，若 ∀ω ∈ Ω，按⼀定的法则，存在⼀个实数 X(ω) 与之对应，则称 Ω 上的实值单值函数 X(ω) 为随机变量
X 为 Ω → ℝ 的一个映射
- 定义域为样本空间
- 随机性：可能取值不止一个，试验前只知道所有可能取值，但不知道具体哪一个
- 概率特性：随机变量以一定概率取某个值或某些值

随机变量的分布函数

定义：设 X 为一随机变量，对于任意实数 x，则 X 的分布函数为： F(x) = P (X ≤ x)， − ∞ < x < +∞

有时记作 F_X(x)
性质：
- F(x) 单调不减 ∀x₁ < x₂，F(x₁) ≤ F(x₂)
- 0 ≤ F(x) ≤ 1，且 lim_{x → +∞}F(x) = 1，lim_{x → −∞}F(x) = 0
用分布函数表示概率 $$ \begin{aligned} P(X\le x_0) &= F(x_0)\\ P(X<x_0) &=\lim_{\Delta x\to0_+}P(X\le x_0-\Delta x)\\ &=\lim_{\Delta x\to0_+}F(x_0-\Delta x)\\ &=F(x_0-0)\\ P(X=x_0) &= F(x_0) - F(x_0-0)\\ P(a<X\le b) &= F(b) - F(a) \end{aligned} $$

离散型随机变量及其分布律

离散型随机变量概率分布

定义：随机变量 X 的可能取值是有限个或可列无穷多个
分布律：设离散型随机变量 X 的所有可能取值为 X = x_k (k = 1，2，⋯)，不妨设 x₁ < x₂ < ⋯，则 X 的分布律为 P(X = x_k) = p_k， k = 1，2，⋯
性质：
1. p_k ≥ 0， k = 1，2，⋯
2. $$\sum_{k=1}^{+\infty}p_k = 1$$
分布函数：
- F(x) = P(X ≤ x) = ∑_{x_k ≤ x}P(X = x_k)
- P(X = x_k) = p_k = P(x_k − 1 < X ≤ x_k) = F(x_k) − F(x_k − 1)
- F(x) 为分段阶梯函数
- 在 X 的可能取值处存在第一类跳跃间断点

常见离散型随机变量

0-1分布 (两点分布)

随机变量只有两个可能取值，分布律由下表所示 $$ \begin{array}{c|cc} \hline \quad X\quad &\quad 1\quad &\quad 0\quad\\ \hline P&p&1-p\\ \hline \end{array}$$

其中 0 < p < 1，称 X 服从参数为 p 的 0-1分布

也可写成 P(X = k) = p^k (1 − p)^1 − k， k = 0，1

二项分布 (伯努利概型)

n 重 Bernoulli 试验：
1. 可独立地进行 n 次 (可能性互不影响)
2. 每次试验的结果仅两个， A 和 $\overline A$
对应的概型为 Bernoulli 概型
n 重 Bernoulli 试验中，设一次试验中事件 A 发生的概率为 P(A) = p (0 < p < 1)，则事件 A 发生次数 X 的分布律为 P(X = k) = C_n^k p^k (1 − p)^n − k， k = 0，1，⋯，n
称 X 服从参数为 (n，p) 的二项分布，记为 X ∼ B(n，p) $$ P(X>N) = \sum_{k = N+1}^nP(X = k) $$
超几何分布的极限分布是二项分布

负二项分布 (Pascal 分布)

进行一个试验直到成功 r 次，试验进行了 k 次的分布律 P(X = k) = C_r − 1^k − 1 p^r (1 − p)^k − r， k = r，r + 1，⋯

几何分布

当 r = 1，有几何分布 X ∼ G(p) P(X = k) = (1 − p)^k − 1 p， k = 1，2，⋯

求出最可能出现的次数 $$ \begin{cases} \dfrac{P_{k-1}}{P_k} = \dfrac{(1-p)\ k}{p\ (n-k+1)}\le1，\\ \dfrac{P_k}{P_{k+1}} = \dfrac{(1-p)\ (k+1)}{p\ (n-k)}\ge1， \end{cases} \implies(n+1)\ p-1\le k \le (n+1)\ p $$

Poisson 分布

Poisson 定理：设 $\lim\limits_{n\to+\infty}np_n = \lambda > 0$，则 $$ \lim_{n\to+\infty}\mathrm C_n^k\ p_n^k\ (1-p_n)^{n-k} = \mathrm e^{-\lambda}\ \dfrac{\lambda^k}{k!}，\ k = 0， 1， 2， \cdots $$
推论：假设 np_n = λ > 0 (n = 1，2，⋯)，则上述公式仍成立
二项分布的极限分布是 Poisson 分布：当二项分布 n 较大而 p 较小时 (n ≥ 20，p ≤ 0.05)，有如下近似 $$ P(X>N) = \sum_{k = N+1}^nP(X = k)\approx\sum_{k=N+1}^\infty\mathrm e^{-np}\dfrac{(np)^k}{k!} = 1 - \sum_{0}^{N}\mathrm e^{-np}\dfrac{(np)^k}{k!} $$
Poisson 分布：设随机变量 X 的所有可能取值为 0，1，2，⋯，且分布律为 $$ P(X=k) = \mathrm e^{-\lambda}\ \dfrac{\lambda^k}{k!}，\ k = 0，1，2，\cdots $$

其中 λ > 0，称 X 服从参数为 λ 的 Poisson 分布，记为 X ∼ P(λ) 或 π(λ)

连续型随机变量及其概率密度

连续性随机变量的概率密度

定义：设 X 是⼀随机变量， F(X) 是它的分布函数，若存在一个非负可积函数 f(x) 使得 F(x) = ∫_−∞^xf(t) dt， − ∞ < x < +∞

则称 X 为连续型随机变量， f(x) 为它的概率密度函数 (概率密度/密度函数)， f(x) 可记为 f_X(x)
分布函数连续
对于一个随机变量 X，概率密度 f(x) 不唯一，允许其在有限或者可列无穷多个点处的函数值不同
性质
1. 非负性 f(x) ≥ 0
2. 规范性 ∫_−∞^+∞f(x) dx = F(+∞) = 1
3. 在 f(x) 的连续点 x 处，有 f(x) = F^′(x)
4. f(x) 描述了 X 在 x₀ 附近单位长度的区间内取值的概率，即 P(x₀ < X ≤ x₀ + Δx) ≈ f(x₀) Δx
5. 若 a 是随机变量 X 的⼀个可能的取值，则 P(X = a) = 0
6. 对任意实数 a，b (a < b)，有 $$\begin{aligned} P(a < X \le b) &= P(a \le X \le b) = P(a < X < b)\\ &= P(a\le X < b) = \int_a^bf(x)\ \mathrm dx\\ P(X\le b) &= P(X<b) = \int_{-\infty}^bf(x)\ \mathrm dx\\ P(X>a) &= P(X\ge a) = \int_a^{+\infty}f(x)\ \mathrm dx \end{aligned} $$

常见连续型随机变量的分布

均匀分布

X 服从区间 (a，b) 上的均匀分布，记为 X ∼ U(a，b)

密度函数 $$ f(x) = \begin{cases}\dfrac{1}{b-a}，&a<x<b，\\0，&\rm otherwise.\end{cases} $$
分布函数 $$ F(X) = \begin{cases}0， &x<a，\\\dfrac{x-a}{b-a}，&a\le x<b，\\1，&x\ge b.\end{cases} $$

指数分布

X 服从参数为 λ 的指数分布，记为 X ∼ E(λ)

密度函数 $$ f(x) = \begin{cases}\lambda\ \mathrm e^{-\lambda\ x}，&x>0，\\0，&x\le 0.\\\end{cases} $$
分布函数 $$ F(x) = \begin{cases}0，&x<0，\\1-\mathrm e^{-\lambda\ x}，&x\ge 0.\end{cases} $$
对任意 0 < a < b， P(a < X < b) = e^−λa − e^−λb
指数分布的无记忆性：若 X ∼ E(λ)，则已经用了 s 小时，还能用 t 小时的概率为 P(X > s + t | X > s) = P(X > t)
泊松分布与指数分布关系：一段时间内顾客来的概率服从泊松分布，则时间间隔服从指数分布

正态分布 (Gaussian 分布)

X 服从参数为 μ，σ 的正态分布，记为 X ∼ N(μ，σ²)

密度函数 $$ f(x) = \dfrac{1}{\sqrt{2\pi}\ \sigma}\exp (-\dfrac{(x-\mu)^2}{2\sigma^2})，\quad-\infty<x<+\infty $$
性质
1. 直线关于 x = μ 对称：f(μ + x) = f(μ − x)
2. 最大值 $f(\mu) = \dfrac{1}{\sqrt{2\pi}\ \sigma}$
3. 渐近线 x 轴
4. 拐点 x = μ ± σ
5. σ 形状参数
  - 与曲线陡峭程度成反比
  - 与数据分散程度成正比
6. μ 位置参数
  - 对称轴的位置

标准正态分布

X^* ∼ N(0，1) 为标准正态分布

密度函数 $$ \varphi(x) = \dfrac{1}{\sqrt{2\pi}}\ \mathrm e^{-\frac{x^2}{2}}，\quad-\infty<x<+\infty $$
分布函数 $$ \mathit\Phi(x) = \dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^x\mathrm e^{-\frac{t^2}{2}}\ \mathrm dt，\quad-\infty<x<+\infty $$
性质：
- Φ(−x) = 1 − Φ(x)
- P(| X^* | ≤ a) = 2 Φ(a) − 1
- 一般正态分布可以由线性变换 $Y=\dfrac{X-\mu}{\sigma}$ 转化为标准正态分布：若 X ∼ N(μ，σ²)，则 $X^* = \dfrac{X-\mu}{\sigma}$
- 一般正态分布概率的计算可以转化为标准正态分布的概率来计算：若 X ∼ N(μ，σ²)，则 $F(x) = \mathit\Phi\left(\dfrac{x-\mu}{\sigma}\right)$

随机变量函数的分布

离散型随机变量函数的分布

列出 X 的分布律
直接由 X 的取值确定 Y = g(X) 的全部可能取值
直接由 P(X_i) 得到 P(Y_i = g(X_i))，于是有 Y 的分布律

连续型随机变量的分布

由分布函数定义 F_Y(y) = P(Y ≤ y) = P(g(X) ≤ y)
对上式变换， = P(X ≤ g⁻¹(y)) = F(g⁻¹(y))
- 这里有可能会有平方，变成 $P(X^2 \le y) = P(-\sqrt y \le X \le \sqrt y)$
将 g⁻¹(y) 作为自变量代入 F(x)，得到上式左边的 F_Y(y)
对 F_Y(x) 求导得到 y 的密度函数 f_Y(x)

一般性定理

设随机变量 X 具有概率密度 f_X(x)， − ∞ < x < +∞，g(x) 为 (−∞， + ∞) 内的严格单调的可导函数，则随机变量 Y = g(X) 的概率密度为 $$ f_Y(y) = \begin{cases}|\ h'(y)\ |\cdot f_X[\ h(y)\ ]，&\alpha<y < \beta，\\0，&\text{otherwise.}\end{cases} $$

其中：

h(y) 是 g(x) 的反函数
α = min {g(−∞)，g(+∞)}，β = max {g(−∞)，g(+∞)}

第三章多维随机变量及其分布

二维随机变量

二维随机变量及其联合分布函数

定义：设 E 是⼀个随机试验，Ω 是其样本空间，若对 Ω 中的任意⼀个样本点 ω 按照⼀定的对应法则，存在⼀对实数 X(ω)，Y(ω) 与之对应，简记为 (X，Y)，称之为二维随机变量
联合分布函数： F(x，y) = P({X ≤ x} ∪ {Y ≤ y}) = P(X ≤ x，Y ≤ y)
性质
1. 0 ≤ F(x，y) ≤ 1，对于任意固定的 x，y，有 F(−∞，y) = 0，F(x， − ∞) = 0，F(−∞， − ∞) = 0，F(+∞， + ∞) = 1
2. 对 F(x，y) 固定其中⼀个变量，它关于另⼀个变量是单调不减的函数
3. 对 F(x，y) 固定其中⼀个变量，它关于另⼀个变量是右连续函数 F(x + 0，y) = F(x，y)， F(x，y + 0) = F(x，y)
4. 对任意实数 a < b，c < d，(图形为一个矩形) F(b，d) − F(a，d) − F(b，d) + F(a，c) = P(a < X ≤ b，c < Y ≤ d) ≥ 0
5. 对于平面右上角的一块无穷区域 $\bf I$，计算概率时应当将整个平面减去三个区域 $\bf II，III，IV$ $$ \begin{aligned} P(X> a，Y>c) &= P(a<X<+\infty，c<y<+\infty)\\ &=1-F(+\infty，c) - F(a，+\infty)+F(a，c)\\ &\neq 1- F(a，c) \end{aligned} $$
边缘分布函数：设⼆维随机变量 (X，Y) 的分布函数为 F(x，y)，分量 X 和 Y 也都是随机变量，各⾃的分布函数分别记为 F_X(x)，F_Y(y)，并依次称为随机变量 (X，Y) 关于 X，Y 的边缘分布函数 $$ \begin{aligned} F_X(x) &= P(X\le x) = F(x，+\infty)\\ F_Y(y) &= P(Y\le y) = F(+\infty，y) \end{aligned} $$

二维离散型随机变量

定义：随机变量 (X，Y) 在⼆维平⾯上所有可能的取值为有限对或可列无穷对，则称 (X，Y) 为 ⼆维离散型随机变量
设⼆维随机变量 (X，Y) 的所有可能取值为 (x_i，y_i)，i，j = 1，2，⋯，则称 P(X = x_i，Y = y_i) = p_ij，i = j = 1，2，⋯ 为⼆维离散型随机变量 (X，Y) 的联合分布律或联合分布列，简称为分布律

$$ \begin{array}{c|c|c} \hline P_{ij}& \begin{array}{ccccc}&&X\\ \hline \ x_1&\ x_2\ &\cdots &\ x_i\ &\cdots \end{array} &P_{\bullet j} = \displaystyle\sum_i p_{ij}\\ \hline \begin{array}{c|c}&\;\;\;y_1\\&\;\;\;y_2\\Y\ \ \ &\;\;\;\vdots\\&\;\;\;y_j\\&\;\;\;\vdots\\ \end{array} &\begin{array}{ccccc} p_{11}&p_{21}&\cdots&p_{i1}&\cdots\\ p_{12}&p_{22}&\cdots&p_{i2}&\cdots\\ \vdots&\vdots&&\vdots&\\ p_{1j}&p_{2j}&\cdots&p_{ij}&\cdots\\ \vdots&\vdots&&\vdots&\\ \end{array} &\begin{array}{c} p_{\bullet1}\\p_{\bullet2}\\\vdots\\p_{\bullet j}\\\vdots \end{array}\\ \hline p_{i\bullet} = \displaystyle\sum_{j} p_{ij}& \begin{array}{ccccc} p_{1\bullet}&p_{2\bullet}&\cdots &p_{i\bullet} &\cdots \end{array}& \displaystyle\sum_i\sum_j p_{ij} = 1\\ \hline \end{array}$$

性质：若某数列满足下列性质，则可以作为某个二维离散型随机变量的分布律
- 非负性 p_ij ≥ 0 (i，j = 1，2，⋯)
- 规范性 ∑_i∑_jp_ij = 1

由分布律求分布函数

⼆维离散型随机变量的分布函数与分布律互为确定 (x，y) = ∑_{x_i ≤ x}∑_{y_j ≤ y}p_ij

二维离散型随机变量的边缘分布律

以下分别为 (X，Y) 关于 X 和 Y 的边缘分布律 $$ \begin{aligned} P(X= x_i) &= \sum_j p_{ij} \xlongequal{记为} p_{i\bullet}，\ i=1，2，\cdots\\ P(Y= y_j) &= \sum_i p_{ij} \xlongequal{记为} p_{\bullet j}，\ j=1，2，\cdots \end{aligned} $$

二维连续型随机变量

分布函数：⼆维连续型随机变量 (X，Y) 的分布函数 F(X，Y) 为 (X，Y) 的联合概率密度函数 f(x，y) (⼆元⾮负可积函数) 的二重积分 F(x，y) = ∫_−∞^x∫_−∞^yf(u，v) du dv
性质：
1. 非负性 f(x，y) ≥ 0， (x，y) ∈ ℝ²
2. 规范性 ∫_−∞^+∞∫_−∞^+∞f(x，y) dx dy = 1
3. 样本点落在任一区域 D 的概率 $$P((X，Y)\in D) = \iint\limits_D f(x，y)\ \mathrm dx\ \mathrm dy$$
4. 根据分布函数求概率密度函数 f(x，y) 连续点处 $$\dfrac{\partial^2F}{\partial x\ \partial y} = f(x，y)$$
边缘概率密度：已知联合分布可以求得边缘分布，反之不能确定 $$ \begin{aligned} f_X(x) &= \int_{-\infty}^{+\infty}f(x，y)\ \mathrm dy\\ f_Y(y) &= \int_{-\infty}^{+\infty}f(x，y)\ \mathrm dx\\ \end{aligned} $$

常用连续型二维随机变量分布

均匀分布

连续型随机变量 (X，Y) 服从二维有界区域 G 上的均匀分布，记为 (X，Y) ∼ U(G)，则其概率密度函数为 $$ f(x，y) = \begin{cases}\dfrac{1}{A_G}，&(x，y)\in G，\\0，&\text{otherwise}.\end{cases} $$

A_G 为 G 的面积

二维正态分布

连续型随机变量 (X，Y) 服从二维有界区域 G 上的二维正态分布，记为 (X，Y) ∼ N(μ₁，σ₁²; μ₂，σ₂²; ρ)，则其概率密度函数为 $$ f(x，y)=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} $$

二维正态分布的边缘分布为两个独立的一维正态分布

二维随机变量的条件分布

二维离散型随机变量的条件分布

定义：设有⼆维离散型随机变量 (X，Y)
- 对于固定的 j，若 P(Y = y_j) > 0，则在 {Y = y_j} 的条件下 X 的条件分布律为 $$ P(X = x_i\mid Y = y_j) = \dfrac{P(X = x_i，Y = y_j)}{P(Y = y_j)} = \dfrac{p_{ij}}{p_{\bullet j}}，\ i = 1，2，\cdots $$
  - P(Y = y_j) 即边缘分布律：分布律表格中将 Y = y_j 一列的概率全部相加
- 对于固定的 i，若 P(X = x_i) > 0，则在 {X = x_i} 的条件下 Y 的条件分布律为 $$ P(Y = y_j\mid X = x_i) = \dfrac{P(X = x_i，Y = y_j)}{P(X = x_i)} = \dfrac{p_{ij}}{p_{i\bullet}}，\ j = 1，2，\cdots $$
  - P(X = x_i) 即边缘分布律：分布律表格中将 X = x_i 一行的概率全部相加
性质
1. P(X = x_i ∣ Y = y_j) ≥ 0
2. $$\displaystyle\sum_iP(X = x_i\mid Y = y_j) = \sum_i\dfrac{p_{ij}}{p_{\bullet j}} =\dfrac{1}{p_{\bullet j}}\sum_ip_{ij} = 1$$
3. 乘法公式 P(X = x_i，Y = y_j) = P(Y = y_j) P(X = x_i ∣ Y = y_j)， i，j = 1，2，⋯
4. 全概率公式 P(X = x_i) = ∑_jP(Y = y_j) P(X = x_i ∣ Y = y_j)，i = 1，2，⋯

⼆维连续型随机变量的条件分布

定义：设⼆维随机变量 (X，Y) 的联合概率密度为 f(x，y)，X，Y 的边缘概率密度分别为 f_X(x)，f_Y(y)
- 当 f_Y(y) > 0 时
  - 在 {Y = y} 的条件下 X 的条件概率密度为 $$ f_{X\ |\ Y} (x\mid y) = \dfrac{f(x，y)}{f_Y(y)}，\quad -\infty<x<+\infty $$
  - 在 {Y = y} 的条件下 X 的条件分布函数为 $$ F_{X\ |\ Y} (x\mid y) = \int_{-\infty}^x\dfrac{f(u，y)}{f_Y(y)}\ \mathrm du，\quad -\infty<x<+\infty $$
- 当 f_X(x) > 0 时
  - 在 {X = x} 的条件下 Y 的条件概率密度为 $$f_{Y\ |\ X} (y\mid x) = \dfrac{f(x，y)}{f_X(x)}，\quad -\infty<y<+\infty $$
  - 在 {X = x} 的条件下 Y 的条件分布函数为 $$ F_{Y\ |\ X} (y\mid x) = \int_{-\infty}^y\dfrac{f(x，v)}{f_X(x)}\ \mathrm dv，\quad -\infty<y<+\infty $$
性质：
1. 类似乘法公式 $$ \begin{aligned} f(x，y) &= f_X(x)\ f_{Y\ |\ X} (y\mid x)\quad f_X(x)>0\\ &= f_Y(y)\ f_{X\ |\ Y} (x\mid y)\quad f_Y(y)>0 \end{aligned} $$
2. 类似全概率公式 $$ \begin{aligned} f_X(x) &= \int_{-\infty}^{+\infty}f(x，y)\ \mathrm dy = \int_{-\infty}^{+\infty}f_{X\ |\ Y}(x\mid y)\cdot f_Y(y)\ \mathrm dy\\ f_Y(y) &= \int_{-\infty}^{+\infty}f(x，y)\ \mathrm dx = \int_{-\infty}^{+\infty}f_{Y\ |\ X}(y\mid x)\cdot f_X(x)\ \mathrm dx \end{aligned} $$
3. 类似 Bayes 公式 $$ \begin{aligned} f_{X \mid Y}(x \mid y)&=\dfrac{f(x，y)}{f_{Y}(y)}=\dfrac{f_{Y \mid X}(y \mid x) \cdot f_{X}(x)}{f_{Y}(y)} \\ f_{Y \mid X}(y \mid x)&=\dfrac{f(x，y)}{f_{X}(x)}=\dfrac{f_{X \mid Y}(x \mid y) \cdot f_{Y}(y)}{f_{X}(x)} \end{aligned} $$

二维随机变量的独立性

定义：相互独立的二维随机变量 (X，Y) 对任意 x，y 都有 P(X ≤ x，Y ≤ y) = P(X ≤ x)P(Y ≤ y)
判定独立性：
- 离散型： P(X = x_i，Y = y_j) = P(X = x_i) ⋅ P(Y = y_j)
- 连续型： f(x，y) = f_X(x) ⋅ f_Y(y)
独立性定理：若联合概率密度分布函数 f(x，y) 可以写成两个函数的乘积，即 f(x，y) = r(x) ⋅ g(y) ，则 X，Y 相互独立，且有 $$ \begin{aligned}f_X(x) &= \dfrac{r(x)}{\displaystyle\int_{-\infty}^{+\infty}r(x)\ \mathrm dx}\\ f_Y(y) &= \dfrac{g(y)}{\displaystyle\int_{-\infty}^{+\infty}g(y)\ \mathrm dy} \end{aligned} $$
性质：
1. 如果二维随机变量 X，Y 相互独立，则有 $$ \begin{aligned} f_X(x) &= f_{X\ |\ Y}(x\mid y)，\quad f_Y(y)>0\\ f_Y(y) &= f_{Y\ |\ X}(y\mid x)，\quad f_X(x)>0 \end{aligned} $$
2. 独立的二维随机变量的连续函数仍独立：设 X，Y 为相互独立的二维随机变量，u(x)，v(y) 为连续函数，则 U = u(X)，V = v(Y) 也相互独立

多维随机变量函数的分布

多维离散型随机变量函数的分布

设 (X，Y) 的联合分布律为 P(X = x_i，Y = y_j) = p_ij，(i，j = 1，2，⋯)，z = g(x，y) 为一个二元函数，Z = g(X，Y) 为随机变量 (X，Y) 的函数。

假设 Z 的全部不同取值记为 z_k，并且所有使得 g(x，y) = z_k 的点记为 (x_{i_k}，y_{j_k})，即 z_k = g(x_{i_k}，y_{j_k})，则 Z 的分布律： P(Z = z_k) = P(g(X，Y) = z_k) = ∑_{g(x_{i_k}，y_{j_k}) = z_k}P(X = x_{i_k}，Y = y_{j_k})， k = 1，2，⋯

特别地，当 Z = X + Y 时， $$ P(Z=r)=P(X+Y=r)=\sum_{i=0}^{r} P(X=i，Y=r-i) $$
进一步，当 X 与 Y 相互独立时，若 P(X = k) = a_k，P(Y = k) = b_k，k = 0，1，2，⋯，则 Z = X + Y 的分布律满足离散卷积公式： $$ P(Z=r)=\sum_{i=0}^{r} P(X=i) P(Y=r-i)=\sum_{i=0}^{r} a_{i} b_{r-i} $$
性质：
1. Poisson 分布的可加性：若随机变量 X，Y 相互独立，且都服从 Poisson 分布，即 X ∼ P(λ₁)，Y ∼ P(λ₂)，则其和也服从 Poisson 分布，即 X + Y ∼ P(λ₁ + λ₂)
2. ⼆项分布的可加性：若随机变量 X，Y 相互独立，且都服从二项分布，即 X ∼ B(n，p)，Y ∼ B(m，p)，则其和也服从二项分布，即 X + Y ∼ B(n + m，p)

多维连续型随机变量函数的分布

设 (X，Y) 的联合概率密度为 f(x，y)，g(x，y) 是一个二元函数，令 Z = g(X，Y)，则 Z 的分布函数： $$ F_{Z}(z)=P(Z \le z)=P(g(X，Y) \le z)=\iint\limits_{g(x，y) \le z} f(x，y) \ \mathrm{d} x \ \mathrm{d} y $$

若有非负可积函数 f_Z(z)，使得 F_Z(z) = ∫_−∞^zf_Z(u) du

则随机变量函数 Z = g(X，Y) 的概率密度为 f_Z(z) = F^′_Z(z)

和的分布

和的分布：Z = X + Y f_Z(z) = ∫_−∞^+∞f(x，z − x) dx = ∫_−∞^+∞f(z − y，y) dy

若 X，Y 相互独立，则 $$ \begin{aligned} f_Z(z) &= \int_{-\infty}^{+\infty}f_X(x)\cdot f_Y(z-x)\ \mathrm dx\\ &= \int_{-\infty}^{+\infty}f_X(z-y)\cdot f_Y(y)\ \mathrm dy \xlongequal{\triangle}f_X * f_Y(z) \end{aligned} $$

函数 f_Z(z) 称为称为函数 f_X(x) 与 f_Y(y) 的卷积

线性函数的分布 Z = aX + bY + c

更一般地，设 Z = aX + bY + c，a，b，c 为常数，a，b ≠ 0， $$ f_{Z}(z)=\frac{1}{|b|} \int_{-\infty}^{+\infty} f\left(t，\frac{z-a t-c}{b}\right) \mathrm{d} t=\frac{1}{|a|} \int_{-\infty}^{+\infty} f\left(\frac{z-b t-c}{a}，t\right) \mathrm{d} t $$

商的分布

商的分布：$Z = \dfrac XY$ $$ \begin{aligned}F_Z(z) &= P\left(\dfrac XY\le z\right)\\ &= \iint\limits_{\frac xy\le z}f(x，y)\ \mathrm dx\ \mathrm dy \\&= \int_0^{+\infty}\mathrm dy\int_{-\infty}^{yz} f(x，y)\ \mathrm dx + \int^0_{-\infty}\mathrm dy\int_{yz}^{+\infty} f(x，y)\ \mathrm dx \end{aligned} $$

概率密度为 f_Z(z) = ∫_−∞^+∞f(yz，y) | y | dy

若 X，Y 相互独立，则 f_Z(z) = ∫_−∞^+∞f_X(yz) ⋅ f_Y(y) | y | dy

平方和的分布

平方和的分布：Z = X² + Y² $$ f_{Z}(z)=\begin{cases} 0，& z<0 \\ \dfrac{1}{2} \displaystyle\int_{0}^{2 \pi} f(\sqrt{z} \cos \theta，\sqrt{z} \sin \theta) \mathrm{d} \theta，& z \geqslant 0 \end{cases} $$

极值的分布

极值的分布：M = max {X，Y}，N = min {X，Y}

离散型随机变量： $$\begin{aligned} P(M = m) &= P(\max\{X，Y\} = m)\\ &= P(X = m，Y \le m) + P(Y = m，X \le m) - P(X = m，Y = m)\\ &= P(X = m)\cdot P(Y \le m) + P(Y = m)\cdot P(X \le m) - P(X = m)\cdot P(Y = m)\\ P(N = n) &= P(\min\{X，Y\} = n)\\ &= P(X = n，Y \ge n) + P(Y = n，X \ge n) - P(X = n，Y = n)\\ &= P(X = n)\cdot P(Y \ge n) + P(Y = n)\cdot P(X \ge n) - P(X = n)\cdot P(Y = n)\\ \end{aligned} $$
连续型随机变量：设 X，Y 相互独立 $$ \begin{aligned} F_M(u) &= P(\max\{X，Y\}\le u)\\ &=P(X\le u，Y\le u)\\ &=P(X\le u)\cdot P(Y\le u)\\ &= F_X(u)\cdot F_Y(u)\\ F_N(v) &= P(\min\{X，Y\}\le v)\\ &=1-P(X>v，Y>v)\\&=1-P(X> v)\cdot P(Y> v)\\ &= 1 - \big(1-F_X(v)\big)\cdot \big(1-F_Y(v)\big) \end{aligned} $$

变量代换法

设已知二维随机变量 (X，Y) 的概率密度函数 f_XY(x，y)，构造一个新的二维随机变量 (Z，V)，满足 $$ \begin{cases} Z=g(X，Y) \\ V=r(X，Y) \end{cases} $$

设 $\begin{cases} z=g(x，y) \\ v=r(x，y) \end{cases}$ 存在唯一的反函数 $\begin{cases} x=h(z，v) \\y=s(z，v)\end{cases}$，其中 h，s 有连续偏导数，记雅可比行列式 $$ J = \begin{vmatrix}h_z&h_v\\s_z&s_v\end{vmatrix} $$

则 f_ZV(z，v) = f_XY(h(z，v)，s(z，v)) | J |

第四章随机变量的数字特征

数学期望

数学期望的概念

离散型随机变量的期望：设离散型随机变量 X 的分布律为P(X = x_k) = p_k， k = 1，2，⋯，若级数 $\displaystyle\sum_{k=1}^{+\infty} x_{k} p_{k}$ 绝对收敛，即 $\displaystyle\sum_{k=1}^{+\infty}\left|x_{k}\right| p_{k}<+\infty$，则随机变量 X 的数学期望 (均值) 为 $$ E(X) = \sum_{k=1}^{+\infty} x_{k} p_{k} $$
- 若级数不绝对收敛，则数学期望不存在
连续型随机变量的期望：设 X 为连续型随机变量，其概率密度为 f(x)若 ∫_−∞^+∞xf(x)dx 绝对收敛，即 ∫_−∞^+∞|x|f(x)dx < +∞，则随机变量 X 的数学期望 (均值) 为 E(X) = ∫_−∞^+∞xf(x)dx

数学期望的性质

存在性充要条件：设 X 是任意随机变量，则 X 的数学期望存在的充要条件是 E(| X |) < +∞
有序性：设 X，Y 是任意两个数学期望存在的随机变量，且 X ≤ Y，则 E(X) ≤ E(Y)
- 若存在数 a 使得 P(X ≥ a) = 1，则 E(X) ≥ a
- 若存在数 b 使得 P(X ≤ b) = 1，则 E(X) ≤ b
线性性：
- 设 X 是任意满足 E(| X |) < +∞ 的随机变量，C 是任意常数，则 E(CX) = CE(X)
- 设 X，Y 是任意两个数学期望存在的随机变量，则 X + Y 的数学期望也存在，且 E(X + Y) = E(X) + E(Y)
正向可乘性：设 X，Y 是相互独立的两个数学期望存在的随机变量，则 XY 的数学期望也存在，且 E(XY) = E(X) E(Y)
柯西－施瓦茨不等式： E²(XY) ≤ E(X²)E(Y²)

当 E(X²) > 0，E(Y²) > 0，iff P(Y = t₀X) = 1 时，等式成立

随机变量函数的数学期望

一维随机变量

设 X 为随机变量，Y = g(X)，其中 g(x) 是一个确定函数

离散型：设 X 为离散型随机变量，其分布律为 P(X = x_k) = p_k，k = 1，2，⋯，若级数 $\displaystyle\sum_{k=1}^{+\infty} g\left(x_{k}\right) p_{k}$ 绝对收敛，则 $$ E(Y)=E\big(g(X)\big)=\sum_{k=1}^{+\infty} g\left(x_{k}\right)\ p_{k} $$
连续型：设 X 为连续型随机变量，其概率密度为 f(x)，若积分 ∫_−∞^+∞g(x)f(x)dx 绝对收敛，则 E(Y) = E(g(X)) = ∫_−∞^+∞g(x) f(x) dx

二维随机变量

设 X，Y 为随机变量，Z = g(X，Y)，其中 g(x，y) 是一个确定函数

离散型：设 (X，Y) 为离散型随机变量，其分布律为 P(X = x_i，Y = y_j) = p_ij，i，j = 1，2，⋯，若级数 $\displaystyle\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} g\left(x_{i}，y_{j}\right) p_{i j}$ 绝对收敛，则 $$ E(Z)=E\big(g(X，Y)\big)=\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} g\left(x_{i}，y_{j}\right)\ p_{i j} $$
连续型：设 (X，Y) 为连续型随机变量，其联合概率密度为 f(x，y)，若积分 ∫_−∞^+∞∫_−∞^+∞g(x，y)f(x，y) dx dy 绝对收敛，则 E(Z) = E(g(X，Y)) = ∫_−∞^+∞∫_−∞^+∞g(x，y) f(x，y) dx dy

方差

方差的概念

设 X 是一个随机变量，若 E{[X − E(X)]²} 存在，则称其为 X 的方差，记为 D(X) 或 Var(X)，即 $$ \begin{aligned} D(X)&=E\left\{[X-E(X)]^{2}\right\}\\ &=E\left(X^{2}\right)-[E(X)]^{2} \end{aligned} $$

离散型：设 X 为离散型随机变量，其分布律为 P(X = x_i) = p_i，i = 1，2，⋯，则 $$ D(X)=\sum_{i=1}^{+\infty}\left[x_{i}-E(X)\right]^{2} p_{i} $$
连续型：设 X 为连续型随机变量，其概率密度为 f(x)，则 D(X) = ∫_−∞^+∞[x − E(X)]²f(x)dx

方差的性质

平方线性 D(aX + b) = a²D(X)
常值函数的方差为零 D(C) = 0
两方差相加 $$ \begin{aligned} D(X \pm Y) &=D(X)+D(Y) \pm 2 E((X-E(X))(Y-E(Y)))\\ &=D(X)+D(Y) \pm 2 (E(XY)-E(X)E(Y))\\ &=D(X)+D(Y) \pm 2 \operatorname{Cov}(X， Y) \end{aligned} $$
相互独立的随机变量相加 D(X ± Y) = D(X) + D(Y)
- 逆命题不成立
- 事实上，对于任意随机变量， D(X ± Y) = D(X) ± 2Cov(X，Y) + D(Y)
- 当 X，Y 独立，则其不相关，协方差为零
方差定义式与意义的扩展：设 X 为一个方差存在的随机变量，则对任意实数 C，有 D(X) ≤ E[(X − C)²]
方差为零的充要条件：设 X 为一个随机变量， C = E(X) 为常数 D(X) = 0 ⇔ P(X = C) = 1

标准化随机变量的方差

对于存在 E(X)，D(X) > 0 的任意随机变量 X，有标准化随机变量 $$ X^{\star}=\frac{X-E(X)}{\sqrt{D(X)}} $$

期望为 0：E(X^*) = 0
方差为 1：D(X^*) = 1
对于 X 的线性组合 Y = aX + b，则有 X^* = Y^*

常见分布的期望与方差

分布	分布律	期望	方差
0 − 1 分布 B(1，p)	P(X = k) = p^k (1 − p)^1 − k k = 0，1， 0 < p < 1	p	p (1 − p)
二项分布 B(n，p)	P(X = k) = C_n^k p^k (1 − p)^n − k k = 0，1，⋯，n， 0 < p < 1	np	np (1 − p)
泊松分布 P(λ)	$P(X=k) = \mathrm e^{-\lambda}\ \dfrac{\lambda^k}{k!}$ k = 0，1，2，⋯， λ > 0	λ	λ
几何分布 G(p)	P(X = k) = (1 − p)^k − 1p k = 1，2，⋯， 0 < p < 1	$\dfrac1p$	$\dfrac1{p^2} - \dfrac1p$
超几何分布 H(n，M，N)	$P(X = k) = \dfrac{\mathrm C_M^k\ \mathrm C_{N-M}^{n-k}}{\mathrm C_N^n}$ k = 0，1，⋯，min (M，n) 0 ≤ M ≤ N	$\dfrac{nM}{N}$	$\dfrac{nM(N-M)}{N^2(N-1)}$
负二项分布 (Pascal 分布)	P(X = k) = C_k − 1^r − 1 p^r (1 − p)^k − r k = r，r + 1，⋯， 0 < p < 1	$\dfrac rp$	$r\left(\dfrac1{p^2} - \dfrac1p\right)$
均匀分布 U(a，b)	$\displaystyle f(x) = \begin{cases}\dfrac{1}{b-a}， &a<x<b，\\0， &\text{otherwise}.\end{cases}$	$\dfrac{a+b}{2}$	$\dfrac{(b-a)^2}{12}$
指数分布 E(λ)	$f(x) = \begin{cases}\lambda\ \mathrm e^{-\lambda x}， &x>0， \\0，&\text{otherwise}.\end{cases}$	$\dfrac1\lambda$	$\dfrac{1}{\lambda^2}$
正态分布 N(μ，σ²)	$f(x) = \dfrac{1}{\sqrt{2\pi}\sigma}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$ −∞ < x < +∞， − ∞ < μ < ∞，σ > 0	μ	σ²

协方差与相关系数

协方差与相关系数的概念

协方差：随机变量 X，Y 的协方差为 Cov(X，Y) = E[(X − E(X))(Y − E(Y))]
- D(X) = Cov(X，X)
相关系数：当 D(X) > 0，D(Y) > 0，则有 X 与 Y 的相关系数 $$ \rho_{X Y}=\frac{\operatorname{Cov}(X，Y)}{\sqrt{D(X)} \sqrt{D(Y)}} $$
- 相关系数为标准化的协方差 ρ_XY = Cov(X^*，Y^*)
- ρ_XY = 0 时， X 与 Y 不相关
协方差矩阵 $$ \left(\begin{array}{cc} D(X) & \operatorname{Cov}(X， Y) \\ \operatorname{Cov}(X， Y) & D(Y) \end{array}\right) $$

协方差的计算

定义： $$ \begin{aligned} \operatorname{Cov}(X，Y)&=E(X Y)-E(X) E(Y)\\ D(X \pm Y)&=D(X)+D(Y) \pm 2 \operatorname{Cov}(X， Y) \end{aligned} $$
离散型： $$ \operatorname{Cov}(X，Y)=\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty}\left[x_{i}-E(X)\right]\left[y_{j}-E(Y)\right] p_{i j} $$
连续型：
- 设 X，Y 的联合概率密度为 f(x，y)，则 $$ \begin{aligned} \operatorname{Cov}(X，Y)&=E(XY)-E(X)E(Y)\\ &=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x y f(x，y) \mathrm{d} x \mathrm{d} y - E(X)E(Y)\\ &=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}[x-E(X)][y-E(Y)] f(x，y) \mathrm{d} x \mathrm{d} y\\ \end{aligned} $$

协方差的性质

可换性： Cov (X，Y) = Cov (Y，X)
变量与常数的协方差： Cov (X，C) = 0
变量与自己的协方差为方差： Cov(X，X) = D(X)
线性性： $$ \begin{aligned} \operatorname{Cov}(a X，b Y)&=a b \operatorname{Cov}(X，Y)\\ \operatorname{Cov}(X，Y)&=\operatorname{Cov}(X-a，Y-b) \end{aligned} $$
线性可加性： Cov (X + Y，Z) = Cov (X，Z) + Cov (Y，Z)
柯西施瓦茨不等式： $$ |\operatorname{Cov}(X，Y)| \leqslant \sqrt{D(X)} \sqrt{D(Y)} $$

随机变量的高阶矩

原点矩与中心矩

原点矩：设 X，Y 都是随机变量，若 E(|X|^k) < +∞(k = 1，2，⋯)，则 X 的 k 阶原点矩 为 E(X^k)
中心矩：设 X 是一个随机变量，若 E(|X|^k) < +∞(k = 1，2，⋯)，则 X 的 k 阶原点矩 为 E{[ X − E(X) ]^k}
混合原点矩与混合中心矩：设 X，Y 都是随机变量，且 E(|X|^k|Y|^l) < +∞(k，l = 1，2，⋯)，若 E(|X|^k|Y|^l) < +∞(k，l = 1，2，⋯)，则
- X，Y 的 k + l 阶混合原点矩 为 E(X^kY^l)
- X，Y 的 k + l 阶混合中心矩 为 E{[X − E(X)]^k[Y − E(Y)]^l}

协方差矩阵

定义：设 (X₁，X₂，⋯，X_n) 是 n 维随机变量，且其分别都存在二阶矩，记 c_ij = cov (X_i，X_j)，i，j = 1，2，⋯，n，则 n 维随机变量的协方差矩阵为 $$ \boldsymbol{C}=\begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n} \end{pmatrix} $$
性质：
1. C 为对称矩阵，因为 c_ij = c_ji
2. C 为半正定矩阵
3. 对任意实数 t₁，t₂，⋯，t_n， $$ D\left(t_{1} X_{1}+t_{2} X_{2}+\cdots+t_{n} X_{n}\right)=\left(t_{1}，t_{2}，\cdots，t_{n}\right) \boldsymbol{C}\left(\begin{array}{c}t_{1} \\ t_{2} \\ \vdots \\ t_{n}\end{array}\right) $$

第五章大数定律和中心极限定理

大数定律预备知识

关于期望的重要不等式

设非负连续性随机变量 X 的期望 E(X) 存在，则对于任意实数 ε > 0，有 $$ P(X \geq \varepsilon) \leq \frac{E(X)}{\varepsilon} $$

马尔可夫（Markov）不等式

马尔可夫不等式描述的是非负随机变量绝对位置的概率上限，设随机变量 X 的 k 阶绝对原点矩 E(|X|^k) 存在，则对于任意实数 ε > 0，则有 $$ P(|X| \geq \varepsilon) \leq \frac{E\left(|X|^{k}\right)}{\varepsilon^{k}} $$

切比雪夫（Chebyshev）不等式

切比雪夫不等式描述的是随机变量距期望相对位置偏离的概率上限，设随机变量 X 的期望 E(X) = μ ，方差 D(X) = σ²，则对于任意实数 ε > 0，恒有 $$ P(|X-\mu| \geqslant \varepsilon) \leqslant \frac{\sigma^{2}}{\varepsilon^{2}} $$

或 $$ P(|X-\mu|<\varepsilon)>1-\frac{\sigma^{2}}{\varepsilon^{2}} $$

依概率收敛

设 Y₁, Y₂, ⋯, Y_n, ⋯ 是一个随机变量序列，X 是一个随机变量，若 ∀ε > 0，有 lim_{n → +∞}P(|Y_n − X| ≥ ε) = 0

或 lim_{n → +∞}P(|Y_n − X| < ε) = 1

则称随机变量序列 Y₁, Y₂, ⋯, Y_n, ⋯ 依概率收敛于 X，记作 $Y_{n} \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} X$

大数定律

定义

若随机变量序列 X₁, X₂, ⋯, X_n, ⋯ 满足 ∀ε > 0，有 $$ \lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\frac{1}{n} \sum_{k=1}^{n} E\left(X_{k}\right)\right|<\varepsilon\right)=1 $$

则称该序列服从大数定律

当试验次数进行到无穷大时，某一随机变量取值的邻域内概率收敛至 1

伯努利（Bernoulli）大数定律

设 n_A 表示 n 次独立重复试验中事件 A 发生的次数，p 是每次试验中 A 发生的概率 (即伯努利试验)，则 ∀ε > 0，有 $$ \lim _{n \rightarrow+\infty} P\left(\left|\frac{n_{A}}{n}-p\right| \geqslant \varepsilon\right)=0 $$

或 $$ \lim _{n \rightarrow+\infty} P\left(\left|\frac{n_{A}}{n}-p\right|<\varepsilon\right)=1 $$

即随机事件 A 在 n 次试验中发生的频率 $\dfrac{n_A}{n}$ 依概率收敛于 A 在一次试验中发生的概率 p

切比雪夫（Chebyshev）大数定律

若满足以下条件：

随机变量序列 X₁, X₂, ⋯, X_n, ⋯ 两两不相关：ρ_{X_iX_j} = 0 (i ≠ j)
方差存在且有共同上界：D(X_k) = σ_k² ≤ σ², k = 1, 2, ⋯, n, ⋯

则该序列服从大数定律，记 E(X_k) = μ_k，则 ∀ε > 0，则有 $$ \lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\frac{1}{n} \sum_{k=1}^{n} \mu_{k}\right|<\varepsilon\right)=1 $$

辛钦（Khintchine）大数定律

随机变量序列 X₁, X₂, ⋯, X_n, ⋯ 满足以下条件：

独立同分布（i.i.d.）
数学期望存在，E(X_k) = μ，k = 1, 2, ⋯

则该序列服从大数定律，对 ∀ε > 0，有 $$ \lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\mu\right|<\varepsilon\right)=1 $$

马尔科夫（Markov）大数定律

设一个随机变量序列满足 $$ D\left(\dfrac1n\sum_{k=1}^{n} X_{k}\right) = \frac{1}{n^{2}} D\left(\sum_{k=1}^{n} X_{k}\right) \stackrel{n \rightarrow \infty}{\longrightarrow } 0 $$

则该随机变量序列服从大数定律，即对 ∀ε > 0，有

$$ \lim_{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^{n} X_{i}-\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}\right)\right|<\varepsilon\right)=1$$

中心极限定理

独立同分布的中心极限定理

设 X₁, X₂, ⋯, X_n, ⋯ 为独立同分布的随机变量序列，E(X_k) = μ，D(X_k) = σ²，k = 1, 2, ⋯, n, ⋯，记 $\displaystyle\sum_{k=1}^n X_k$ 的标准化随机变量为 $$ Y_n = \dfrac{\displaystyle\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\ \sigma} $$

则 $$ \lim_{n\to \infty}P(Y_n\le y) \approx \mathit \Phi (y) = \dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^y\mathrm e^{-\frac{t^2}{2}}\ \mathrm dt $$

即 n → ∞ 时，Y_n ∼ N(0, 1) 或 $\displaystyle\sum_{k=1}^n X_k \sim N(n\mu，n\sigma^2)$ $$ P\left(\sum_{k=1}^n X_k \le x\right)\approx \mathit\Phi\left(\dfrac{x - n\mu}{\sqrt n\ \sigma}\right) $$

棣莫弗—拉普拉斯（De Moivre-Laplace）中心极限定理

随机变量 Y_n ∼ B(n, p), 0 < p < 1, n = 1, 2, ⋯，则 $$ Y_n\sim N(np,np(1-p)) 或 \dfrac{Y_n - np}{\sqrt{np(1-p)}}\sim N(0,1) $$

用频率估计概率

可以用切比雪夫不等式估计概率，但是用中心极限定理通过频率估计得到的结果更精确 $$\begin{aligned} &P\left\{\left|\dfrac{\eta_{n}}{n}-p\right|<\varepsilon\right\}\\ =&P\left\{\left|\dfrac{\eta_{n}-n p}{n}\right|<\varepsilon\right\} \\ =&P\left\{-\varepsilon \sqrt{\dfrac{n}{p q}}<\dfrac{\eta_{n}-n p}{\sqrt{n p q}}<\varepsilon \sqrt{\dfrac{n}{p q}}\right\} \\ \approx &\Phi\left(\varepsilon \sqrt{\dfrac{n}{p q}}\right)-\Phi\left(-\varepsilon \sqrt{\dfrac{n}{p q}}\right)\\ =& 2 \Phi\left(\varepsilon \sqrt{\dfrac{n}{p q}}\right)-1 \end{aligned} $$

第六章数理统计的预备知识

数理统计基本知识

总体和个体

一般地，所研究对象的某个（或某些）数量指标的全体称为总体。
如果所研究的问题只有一个数量指标，就是一个随机变量，如果所研究的问题有多个数量指标，就是多维随机变量。
个体就是总体的每个数量指标。

样本和样本空间

一般地，为研究总体的特征，从总体中抽取部分个体，称为样本
若从某个总体 X 中抽取了 n 个个体，记为 (X₁, X₂, ⋯, X_n)，则称其为总体 X 的一个容量为 n 的样本.
依次对它们进行观察得到 n 个数据 (x₁, x₂, ⋯, x_n)，称这 n 个数据 (n 维实向量) 为总体 X 的一个容量为 n 的样本观测值，简称样本值
可以将它们看作 n 维随机向量 X 的一组可能的取值，样本 (X₁, X₂, ⋯, X_n) 的所有可能取值的集合称为样本空间，记为 χ

样本与函数

简单随机样本：若来自总体 X 的一个样本 (X₁, X₂, ⋯, X_n) 为 X 的一个简单随机样本，则其满足：
- 同分布性，即 X₁, X₂, ⋯, X_n 都与 X 服从相同的分布
- 独立性，即 X₁, X₂, ⋯, X_n 相互独立
分布函数：总体的分布函数为 F(x)，则 (X₁, X₂, ⋯, X_n) 的联合分布函数为 $$ F\left(x_{1},x_{2},\cdots,x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right) $$
概率密度：总体的概率密度为 f(x)，则 (X₁, X₂, ⋯, X_n) 的联合概率密度为 $$ f\left(x_{1},x_{2},\cdots,x_{n}\right)=\prod_{i=1}^{n} f\left(x_{i}\right) $$

统计量

统计量：总体 X 的简单随机样本 (X₁, X₂, ⋯, X_n)，有不含除自变量之外的未知参数的实连续函数 g(r₁, r₂, ⋯, r_n)，使随机变量 g(X₁, X₂, ⋯, X_n) 为统计量
样本值：统计量 g(X₁, X₂, ⋯, X_n) 的一个样本值：g(x₁, x₂, ⋯, x_n)

常用统计量

设 (X₁, X₂, ⋯, X_n) 为总体 X 的一个容量为 n 的样本

样本均值 $$ \bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} $$
- X̄ 的样本值记为 x̄
- 与数学期望的区别
  - 样本均值是随机变量，具有分布
  - 数学期望是常数
  - 依概率收敛到数学期望
样本方差 $$ S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} $$
- S² 的样本值记为 s²
样本标准差 $$ S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} $$
- S 的样本值记为 s
- 样本均值、样本方差与期望、方差的关系 $$ \begin{aligned} E(\bar{X})&=E(X)\\ D(\bar{X})&=\dfrac{D(X)}{n}\\ E(S^2)&=D(X)\\ \end{aligned} $$
样本 k 阶原点矩 $$ M_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}(k=1,2,\cdots) $$
- M_k 的样本值记为 m_k
- M₁ = X̄
样本 k 阶中心矩 $$ (C M)_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}(k=1,2,\cdots) $$
- (CM)_k 的样本值记为 (cm)_k
- (CM)₂ = M₂ − X̄²
  - 由均值和平方的均值即可求 2 阶中心矩
- $(CM)_2 = \dfrac{n-1}{n}S^2\triangleq S_n^2$
  - 由 2 阶中心矩即可求方差
- 样本方差 S² 与样本二阶中心矩 S_n² 的关系： $$ \begin{aligned} S^2 = \dfrac{n}{n-1}S_n^2 \\ E(S_n^2) = \dfrac{n-1}{n}\ \sigma^2\quad E(S^2) = \sigma^2 \end{aligned} $$

顺序统计量

将一组样本的样本值 (x₁, x₂, ⋯，x_n) 从小到大排序后记为 x₁^⋆ ≤ x₂^⋆ ≤ ⋯ ≤ x_n^⋆，定义 X_(k) = x_k^⋆, k = 1, 2, ⋯, n，X_(k) 的取值为样本中从小到大排第 k 位的数，则称 X₍₁₎, X₍₂₎, ⋯, X_(n) 为顺序统计量

极差 D_n = X_(n) − X₍₁₎
样本中位数 $$ \tilde{X}=\left\{\begin{array}{cc} X_{\left(\frac{\mathrm{n}+1}{2}\right)}，& \mathrm{n} \text { 为奇数 } \\ \dfrac{1}{2}\left(X_{\left(\frac{\mathrm{n}}{2}\right)}+X_{\left(\frac{\mathrm{n}}{2}+1\right)}\right)，& \mathrm{n} \text { 为偶数 } \end{array}\right. $$
样本经验分布函数 $$ F_{n}(x)=\left\{\begin{array}{lc} 0，& x<x_{(1)} \\ \dfrac{k}{n}，& x_{(k)} \leq x<x_{(k+1)} \\ 1，& x \geq x_{(n)} \end{array} \quad k=1,2，\cdots，n-1\right. $$
- n → ∞，$F_n(x)\xrightarrow[n\to \infty]{p=1} F(x)$，F_n(x) 以概率 1 一致收敛于分布函数 F(x)
α 分位数：
- 上侧 α 分位数 x_α： P(X > x_α) = α
  - α 为 (0, 1) 内的给定常数
- 双侧 α 分位数 x_α/2 (对于偶函数)： P(| X | > x_α/2) = α
  - α 为 $\left(0,\dfrac12\right)$ 内的给定常数

抽样检验（常用统计量的分布）

正态分布：X ∼ N(μ，σ²)

若随机变量 X₁, X₂, ⋯, X_n 相互独立，且 X_i ∼ N(μ_i, σ_i²)(i = 1, 2, ⋯, n)，则 $$ \sum_{i=1}^{n} a_{i} X_{i} \sim N\left(\sum_{i=1}^{n} a_{i} \mu_{i},\sum_{i=1}^{n} a_{i}^{2} \sigma_{i}^{2}\right) $$

特别地，当 X_i ∼ N(μ, σ²)(i = 1, 2, ⋯, n), $$ \frac{1}{n} \sum_{i=1}^{n} X_{i} \sim N\left(\mu,\frac{\sigma^{2}}{n}\right) $$

均值的期望与方差： $$ E\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right) = \mu,\quad D\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right) = \frac{\sigma^{2}}{n} $$

卡方分布：$\sum_{i=1}^{n} X_{i}^{2} \sim\chi^{2}(n)$

设随机变量 X₁, X₂, ⋯, X_n 相互独立，且均服从标准正态分布 N(0, 1)，则称统计量 $\chi^{2}=\displaystyle\sum_{i=1}^{n} X_{i}^{2}$ 服从自由度为 n 的 χ² 分布，记为 $\displaystyle\sum_{i=1}^{n} X_{i}^{2} \sim\chi^{2}(n)$，其概率密度为 $$ f_{\chi^{2}}(x)=\left\{\begin{array}{ll}\displaystyle \frac{1}{2^{\frac{n}{2}} \Gamma\left(\dfrac{n}{2}\right)} \mathrm{e}^{-\frac{x}{2}} x^{\frac{n}{2}-1},& x>0,\\ 0,& x \leqslant 0, \end{array}\right. $$

其中 Γ(x) = ∫₀^+∞t^x − 1e^−tdt

n = 2 时，$\Gamma(\dfrac{n}{2}) = \Gamma(1) = 1$，则 χ²(2) 的概率密度为 $$ f_{\chi^{2}}(x)=\left\{\begin{array}{ll}\displaystyle \frac{1}{2} \mathrm{e}^{-\frac{x}{2}},& x>0,\\ 0,& x \leqslant 0, \end{array}\right. $$

性质

对于$\chi^{2}=\displaystyle\sum_{i=1}^{n} X_{i}^{2},X_{i} \sim N(0,1),i=1,2,\cdots,n$， E(χ²) = n, D(χ²) = 2n
若 X₁ ∼ χ²(n₁)，X₂ ∼ χ²(n₂)，且两者相互独立，则 X₁ + X₂ ∼ χ²(n₁ + n₂)
当 n 很大时，$\displaystyle\chi^{2}=\sum_{i=1}^{n} X_{i}^{2}$ 近似服从正态分布 N(n，2n)
χ²(n) 的上侧 α 分位数 χ_α²(n) (P(χ² > χ_α²(n)) = α) 可查表

t 分布：T ∼ t(n)

设 X ∼ N(0, 1), Y ∼ χ²(n) 且 X, Y 相互独立，则称随机变量 $T = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}$ 服从自由度为 n 的 t 分布 (又称为 student 分布)，记为 T ∼ t(n)，其概率密度为 $$ f(t)=\frac{\Gamma\left(\dfrac{n+1}{2}\right)}{\sqrt{n \pi} \ \Gamma\left(\dfrac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n+1}{2}},\quad-\infty<t<+\infty $$ t distribution

性质

t 分布的概率密度 f(t) 为偶函数，且当 n → +∞ 时, $$ f(t) \rightarrow \varphi(t)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{t^{2}}{2}} $$

即当自由度 n 充分大时，t 分布近似服从标准正态分布，当 n > 45 时，t 分布可用标准正态分布近似
t 分布的上侧 α 分位数 t_α(n) (P(T > t_α(n)) = α) 可查附表，且 t_1 − α(n) = −t_α(n)

F 分布：F ∼ F(m, n)

设 U ∼ χ²(m), V ∼ χ²(n) ，且 U, V 相互独立，则称随机变量 $F = \dfrac{U / m}{V / n}$ 服从第一自由度为 m，第二自由度为 n 的 F 分布，记为 F ∼ F(m, n)，其概率密度为 $$ f_{F}(t)=\left\{\begin{array}{ll} \frac{\Gamma\left(\dfrac{m+n}{2}\right)}{\Gamma\left(\dfrac{m}{2}\right) \Gamma\left(\dfrac{n}{2}\right)}\left(\dfrac{m}{n}\right)^{\frac{m}{2}} t^{\frac{m}{2}-1}\left(1+\dfrac{m}{n} t\right)^{-\frac{m+n}{2}},& t>0,\\ 0,& t \leqslant 0 \end{array}\right. $$

性质

若 F ∼ F(m，n)，则 $\dfrac{1}{F} \sim F(n,m)$
F(m, n) 的上侧 α 分位数 F_α(m, n)(P(F > F_α(m, n)) = α) 可查附表，且 $$F_{1-\alpha}(m,n)=\frac{1}{F_{\alpha}(n,m)} $$
与 t 分布关系 $$ t_{1-\frac{\alpha}{2}}^{2}(n)=F_{\alpha}(1，n) $$

正态总体的抽样分布

单个正态总体的抽样分布

设 X ∼ N(μ, σ²)，(X₁, X₂, ⋯, X_n)是来自总体 X 的一个简单随机样本，X̄，S² 分别是样本均值与样本方差，则

样本均值的分布 $$ \bar{X} \sim N\left(\mu,\frac{\sigma^{2}}{n}\right) $$

或者 $$ \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1) $$
样本方差的分布 $$ \frac{(n-1) S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\bar{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1) $$

注意区分 $$ \sum_{i=1}^{n}\left(\frac{X_{i}-\mu}{\sigma}\right)^{2} \sim \chi^{2}(n) $$
样本均值与样本方差的独立性
- 样本均值 X̄ 与 $\dfrac{(n-1) S^{2}}{\sigma^{2}}$ 相互独立
推论：设 X ∼ N(μ, σ²), (X₁, X₂, ⋯, X_n) 是来自总体 X 的一个简单随机样本，X̄，S² 分别是样本均值与样本方差，则 $$ \frac{\bar{X}-\mu}{\dfrac{S}{\sqrt{n}}} \sim t(n-1) $$

两个正态总体的抽样分布

设 X ∼ N(μ₁, σ₁²), (X₁, X₂, ⋯, X_n) 是来自总体 X 的一个简单随机样本，Y ∼ N(μ₂, σ₂²), (Y₁, Y₂, ⋯, Y_m) 是来自总体 Y 的一个简单随机样本，且 X，Y 相互独立，则 $$ \begin{aligned} \bar{X}&=\frac{1}{n} \sum_{i=1}^{n} X_{i}\quad S_{1}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\\ \bar{Y}&=\frac{1}{m} \sum_{j=1}^{m} Y_{j}\quad S_{2}^{2}= \frac{1}{m-1} \sum_{j=1}^{m}\left(Y_{j}-\bar{Y}\right)^{2} \end{aligned} $$

则有

样本方差的商的分布 $$ \frac{S_{1}^{2}}{S_{2}^{2}} \Bigg/ \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \sim F(n-1,m-1) $$

当 σ₁ = σ₂ 时， $$ \frac{S_{1}^{2}}{S_{2}^{2}} \sim F(n-1,m-1) $$
当 σ₁ = σ₂ = σ 时, $$ \frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{1}{n}+\dfrac{1}{m}} \sqrt{\dfrac{(n-1) S_{1}^{2}+(m-1) S_{2}^{2}}{n+m-2}}} \sim t(n+m-2) $$

第七章参数估计

点估计

定义

对于一个已知分布函数形式的总体 X，令 F(x; θ₁, θ₂, ⋯, θ_k)

但存在未知参数的情况，对于样本 (X₁, X₂, ⋯, X_n) 构造统计量 θ̂_j = θ̂_j(X₁, X₂, ⋯, X_n), j = 1, 2, ⋯, k

再代入样本数据 (x₁, x₂, ⋯, x_n)，对未知参数 θ_j(j = 1, 2, ⋯, k) 进行估计

这种用 (X₁, X₂, ⋯, X_n) 构造统计量去估计未知参数的方法称为点估计法

频率估计法

对于仅有一个未知量 p 的情况，利用事件 A 在 n 次试验中发生的频率 $\dfrac{n_A}{n}$ 作为事件 A 发生的概率 p 的估计量 $$ \dfrac{n_A}{n}\xrightarrow{\ p\ }p $$

矩估计法

用样本矩估计总体矩，从而得到总体分布中的参数，即用样本的经验分布和样本矩去替换总体的理论分布和总体矩

特点：
- 矩估计法的优点是简单易行，并不需要事先知道总体是什么分布
- 其缺点是当总体类型已知时，没有充分利用分布提供的信息
- 在一般情况下，矩估计量不具有唯一性

估计方法

设总体 X 的分布函数为 F(x; θ₁, θ₂, ⋯, θ_k)，其中待估计的参数为 θ₁, θ₂, ⋯, θ_k，假设 k 阶原点矩存在，则记 E(X^r) = μ_r(θ₁, θ₂, ⋯, θ_k), r = 1, 2, ⋯, k

根据大数定律，列出如下方程 $$ \displaystyle\left\{\begin{array}{c}\displaystyle \mu_{1}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i},\\\displaystyle \mu_{2}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2},\\ \vdots \\\displaystyle \mu_{k}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \end{array}\right. $$

如果方程组有解 (事实上，上述方程都是近似方程)，可以得到矩估计量 $$ \begin{array}{c} \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1},X_{2},\cdots,X_{n}\right),\\ \hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1},X_{2},\cdots,X_{n}\right),\\ \vdots \\ \hat{\theta}_{k}=\hat{\theta}_{k}\left(X_{1},X_{2},\cdots,X_{n}\right), \end{array} $$

代入样本值可得矩估计量的样本值即矩估计值 $$ \begin{array}{c} \hat{\theta}_{1}=\hat{\theta}_{1}\left(x_{1},x_{2},\cdots,x_{n}\right),\\ \hat{\theta}_{2}=\hat{\theta}_{2}\left(x_{1},x_{2},\cdots,x_{n}\right),\\ \vdots \\ \hat{\theta}_{k}=\hat{\theta}_{k}\left(x_{1},x_{2},\cdots,x_{n}\right), \end{array} $$

常见分布的矩估计量

正态分布 $$ \begin{cases} \hat{\mu}_{\text {矩 }} =\bar{X}\\ \hat{\sigma}_{\text {矩 }}^{2} =\displaystyle\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2} \end{cases} $$
指数分布 $$ \hat{\lambda}_{\text {矩 }} = \frac{1}{\bar{X}} $$
泊松分布 $$ \hat{\lambda}_{\text {矩 }} =\displaystyle\frac{1}{n} \sum_{i=1}^{n} x_{i} $$
均匀分布 $$ \begin{cases} \hat{a}_{\text {矩 }}=\bar{X}-\sqrt{3\left(\displaystyle\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}\right)}=\bar{X}-\sqrt{\displaystyle\frac{3}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} = \bar{X}-\sqrt{3 S^2}\\ \hat{b}_{\text {矩 }}=\bar{X}+\sqrt{3\left(\displaystyle\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}\right)}=\bar{X}+\sqrt{\displaystyle\frac{3}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} = \bar{X}+\sqrt{3 S^2} \end{cases} $$

最大似然估计法

估计量 θ̂_MLE
估计值 θ̂_mle #### 估计方法

构造似然函数：
- 离散型 $$ \begin{aligned} L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right) &=P\left(X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\right)\\ &=\prod_{i=1}^{n} P\left(x_{i};\theta_{1},\theta_{2},\cdots,\theta_{k}\right) \end{aligned} $$
- 连续型 $$ L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\prod_{i=1}^{n} f\left(x_{i};\theta_{1},\theta_{2},\cdots,\theta_{k}\right) $$
列出似然方程组：求 (θ̂₁, θ̂₂, ⋯, θ̂_k) 使得 L(θ̂₁, θ̂₂, ⋯, θ̂_k) = max L(θ₁, θ₂, ⋯, θ_k) ，得到似然方程组 $$ \frac{\partial L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)}{\partial \theta_{i}}=0,i=1,2,\cdots,k $$

双边求对数得到对数似然方程组 $$ \frac{\partial \ln L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)}{\partial \theta_{i}}=0,i=1,2,\cdots,k $$
求解极大值点：解以上方程组，求出 (θ̂₁, θ̂₂, ⋯, θ̂_k)

常见分布的极大似然估计

正态分布 $$ \begin{cases} \hat{\mu}_{m l e} = \displaystyle\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x}\\ \hat{\sigma}^{2}_{m l e} = \displaystyle\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \end{cases} $$
均匀分布 $$ \begin{cases} \hat{a}=x_{\min }\\ \hat{b}=x_{\max } \end{cases} $$
指数分布 $$ \hat{\lambda}_{m l e} =\displaystyle\frac{1}{\bar{x}}=\displaystyle\frac{n}{\sum_{i=1}^{n} x_{i}} $$
泊松分布 $$ \hat{\lambda}_{m l e} =\displaystyle\frac{1}{n} \sum_{i=1}^{n} x_{i} $$

性质

最大似然估计不变性原理：若 θ̂ 是未知参数 θ 的最大似然估计，又 g(θ) 是 θ 的连续函数，且有单值反函数 θ = θ(g)，则 g = g(θ) 的最大似然估计为 ĝ = g(θ̂)
- 不变性原理对矩估计一般不成立
存在性与唯一性：
- 极大似然估计不一定存在
- 极大似然估计不一定唯一

估计量的评价标准

无偏性

无偏估计量：θ 的无偏估计量 θ̂ = θ̂(X₁, X₂, ⋯X_n) 满足 E(θ̂) = θ
偏差：若 E(θ̂) ≠ θ，则估计量 θ̂ 的偏差 ε = E(θ̂) − θ
常见估计量的无偏性：样本的 n 阶原点矩都是总体的 n 阶原点矩的无偏估计量
- X̄ 为 μ 的无偏估计量
- S² 为 σ² 的无偏估计量
- CM₂ 需要修正为 $\dfrac{n}{n-1}CM_2$ 才是 σ² 的无偏估计量
性质：
- 估计量的无偏性与其函数的无偏性无关
  - 即 θ̂ 是 θ 的无偏估计量，但 g(θ̂) 不一定是 g(θ) 的
  - 如 X̄ 与 $\overline {X^2}$
- 线性性
  - 由无偏性的公式得到
  - 若某个参数的估计量为两个参数的估计量的线性组合，则这两个参数的无偏估计量按照相同的线性组合即为该参数的无偏估计量
求无偏估计量的方法：由于样本矩是总体矩的无偏估计量，由数学期望线性性，将未知参数表示为总体矩的线性函数，用样本矩作为总体矩的估计量

有效性

定义：对于参数 θ 的两个无偏估计量 θ̂₁ = θ̂₁(X₁, X₂, ⋯, X_n)，θ̂₂ = θ̂₂(X₁, X₂, ⋯, X_n)，利用有效性评判其好坏 D(θ̂₁) < D(θ̂₂)

则估计量 θ̂₁ 比 θ̂₂ 有效
无偏估计的方差下界：无偏估计的方差不是任意小，下界 I(θ) 由下列 Rao-Cramer 不等式确定
- 离散型：P(X; θ) 为 X 的分布律，θ 为未知参数 $$ D(\hat\theta)\ge I(\theta) = \dfrac{1}{nE\left[\left(\dfrac{\partial\ln P(X;\theta)}{\partial\theta}\right)^2\right]} > 0 $$
- 连续型：f(X; θ) 为连续性随机变量 X 的概率密度函数 $$ D(\hat\theta)\ge I(\theta) = \dfrac{1}{nE\left[\left(\dfrac{\partial\ln f(X;\theta)}{\partial\theta}\right)^2\right]} > 0 $$
有效估计量：未知参数 θ 的有效估计量 θ̂₀ 需要满足：
- 在所有无偏估计量 θ̂ 中均有 D(θ̂₀) = I(θ) ≤ D(θ̂)
- 即某个无偏估计量的方差达到下界

一致性

定义：参数 θ 的一致 (相合) 估计量 θ̂_n = θ̂(X₁, X₂, ⋯X_n) 满足：随机变量序列 {θ̂_n} 依概率收敛于 θ，即 ∀ε > 0，有 lim_{n → +∞}P(|θ̂_n − θ| < ε) = 1

或 lim_{n → +∞}P(|θ̂_n − θ| ≥ ε) = 0
性质：
- 矩法估计量的一致性：样本 k 阶矩是总体 k 阶矩的一致性估计量
  - 矩法得到的估计量一般为一致性估计量
  - S_n² 为 D(X) 的一致性估计量
- 一致估计的不变性原理：若 θ̂ 为 θ 的一致估计，则 ĝ(θ) 也为 g(θ) 的一致估计
一致估计量的判定：设 θ̂_n = θ̂(X₁, X₂, ⋯X_n) 为未知参数 θ 的无偏估计量，若 lim_{n → ∞}D(θ̂_n) = 0

则 θ̂_n 为 θ 的一致估计量

区间估计

单个正态总体参数的置信区间

均值 μ 的置信区间

1. 方差 σ² 已知

枢轴量 $$ U = \dfrac{\bar X - \mu}{\sigma/\sqrt n}\sim N(0,1) $$
置信区间 (1 − α) $$ \left(\bar{X}-u_{\alpha / 2} \frac{\sigma}{\sqrt{n}},\bar{X}+u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right) $$

2. 方差未知

枢轴量：用 $S = \sqrt{S^2}$ 代替均方差 σ $$ T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1) $$
置信区间 (1 − α) $$ \left(\bar{X}-t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}},\bar{X}+t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}\right) $$

方差 σ² 的置信区间

1. 均值 μ 未知

枢轴量 $$ \chi^2 = \dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $$
置信区间 (1 − α) $$ \left(\frac{(n-1) S^{2}}{\chi_{\alpha / 2}^{2}(n-1)},\frac{(n-1) S^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)}\right) $$

2. 均值 μ 已知

枢轴量 $$ \chi^2 = \dfrac{1}{\sigma^2}\sum_{i = 1}^n(X_i - \mu)^2 = \sum_{i = 1}^n\left(\dfrac{X_i - \mu}{\sigma}\right)^2\sim\chi^2(n) $$
置信区间 (1 − α) $$ \left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{\alpha / 2}^{2}(n)},\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{1-\alpha / 2}^{2}(n)}\right) $$

两个正态总体参数的置信区间

均值差 μ₁ − μ₂

1. σ₁²，σ₂² 均已知

枢轴量：由 $\bar X - \bar Y \sim N\left(\mu_1 - \mu_2，\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}\right)$, $$ U = \dfrac{\bar X - \bar Y - (\mu_1 - \mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) $$
置信区间 (1 − α) $$ \left(\bar{X}-\bar{Y}-u_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}},\bar{X}-\bar{Y}+u_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right) $$

2. 方差均未知，但 σ₁² = σ₂²

枢轴量 $$ T=\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{S_{W} \sqrt{\dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right) $$

其中 $S_W =\sqrt{\dfrac{(n_1-1) S_{1}^{2}+(n_2-1) S_{2}^{2}}{n_1+n_2-2}}$
置信区间 (1 − α) $$ \left(\bar{X}-\bar{Y}-t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}},\bar{X}-\bar{Y}+t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\right) $$

3. 已知 n₁ = n₂

枢轴量：由配对 Z_i = X_i − Y_i ∼ N(μ₁ − μ₂，σ₁² + σ₂²) $$ T=\frac{\bar{Z}-\left(\mu_{1}-\mu_{2}\right)}{S_{z} / \sqrt{n}} \sim t(n-1) $$
置信区间 (1 − α) $$ \left(\bar{Z}-t_{\alpha / 2}(n-1) S_{z} / \sqrt{n},\quad \bar{Z}+t_{\alpha / 2}(n-1) S_{z} / \sqrt{n}\right) $$

方差比 $\dfrac{\sigma_1^2}{\sigma_2^2}$

1. μ₁, μ₂ 未知

枢轴量 $$ F=\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}}=\frac{S_{1}^{2} / S_{2}^{2}}{\sigma_{1}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1,n_{2}-1\right) $$
置信区间 (1 − α) $$ \left(\frac{S_{1}^{2} / S_{2}^{2}}{F_{\alpha / 2}\left(n_{1}-1,n_{2}-1\right)},\quad \frac{S_{1}^{2} / S_{2}^{2}}{F_{1-\alpha / 2}\left(n_{1}-1,n_{2}-1\right)}\right) $$

2. μ₁, μ₂ 已知

枢轴量 $$ F=\frac{\dfrac{1}{n} \dfrac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}}{\dfrac{1}{m} \dfrac{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}}=\dfrac{\dfrac{m}{n} \dfrac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{\dfrac{\sigma_{1}^{2}}{\sigma_{2}^{2}}} \sim F(n，m) $$
置信区间 (1 − α) $$ \left(\frac{\frac{m}{n} \cdot \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{F_{\frac{\alpha}{2}}(n，m)}，\frac{\frac{m}{n} \cdot \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{F_{1-\frac{\alpha}{2}}(n，m)}\right) $$

正态总体均值的单侧区间估计

单侧置信区间：令 P(θ > θ̂₁) = 1 − α 或 P(θ < θ̂₂) = 1 − α

得 (θ̂₁， + ∞) 或 (−∞，θ̂₂)
- θ̂₁ 单侧置信下限
- θ̂₂ 单侧置信上限

均值 μ 的置信区间

方差 σ² 已知，均值的单侧置信区间

$$ \begin{aligned} \left(\bar{X}-u_{\alpha} \frac{\sigma}{\sqrt{n}},+\infty\right)\\ \left(-\infty,\bar{X}+u_{\alpha} \frac{\sigma}{\sqrt{n}}\right) \end{aligned} $$

方差 σ² 未知，均值的单侧置信区间

$$ \begin{aligned} \left(\bar{X}-t_{\alpha}(n-1) \frac{S}{\sqrt{n}},+\infty\right)\\ \left(-\infty,\bar{X}+t_{\alpha}(n-1) \frac{S}{\sqrt{n}}\right) \end{aligned} $$

方差 σ² 的置信区间

均值 μ 已知，方差的单侧置信区间

$$ \begin{aligned} \left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{\alpha}^{2}(n)},+\infty\right)\\ \left(-\infty,\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{1-\alpha}^{2}(n)}\right) \end{aligned} $$

均值 μ 未知，方差的单侧置信区间

$$ \begin{aligned} \left(\frac{(n-1) S^{2}}{\chi_{\alpha}^{2}(n-1)},+\infty\right)\\ \left(-\infty,\frac{(n-1) S^{2}}{\chi_{1-\alpha}^{2}(n-1)}\right) \end{aligned} $$

第八章假设检验

假设检验

参数假设检验的基本步骤

设总体 X 的分布函数为 F(x)，一般来说 F(x) 完全或部分末知，又设 X₁, X₂, ⋯, X_n 为总体 X 的一个简单随机样本，相应的样本观测值为 x₁, x₂, ⋯, x_n

把实际问题转换为假设检验问题，提出原假设 H₀ 和备择假设 H₁（通常把研究者要证明的假设作为备择假设 ；将所作出的声明/现状/不能轻易否定的假设作为原假设 ）
在 H₀ 成立的条件下，构造适当的检验统计量 ，例如 U = g(X₁, X₂, ⋯, X_n)，要求 U 的分布完全已知（不含末知参数）
给定一个很小的 α（称为显著性水平 ），由 U 构造拒绝域 𝒲，使得当 H₀ 成立时， P((X₁, X₂, ⋯, X_n) ∈ 𝒲) ≤ α

即构造一个小概率事件“(X₁, X₂, ⋯, X_n) ∈ 𝒲”
代入样本数据，计算检验统计量 U 的观测值 Û = g(x₁, x₂, ⋯, x_n)，由此判断 (X₁, X₂, ⋯, X_n) 是否落在 𝒲 中，从而做出决策，即
- 若 (X₁, X₂, ⋯, X_n) ∈ 𝒲，则拒绝 H₀
- 若 (X₁, X₂, ⋯, X_n) ∉ 𝒲，则接受 H₀

决策错误

第一类错误

如果原假设 H₀ 为真，由于样本的随机性，恰巧使所构造的小概率事件发生了，根据上述方法做出拒绝 H₀ 的决策，此时就犯了错误，称这类错误为第Ⅰ类错误（又称为 “弃真”错误）

犯第Ⅰ类错误的概率为 P(拒绝H₀ ∣ H₀为真) ≤ α
犯第Ⅰ类错误的概率不会超过显著性水平 α，α 越小，犯第 Ⅰ 类错误的概率就越小
- 当 α = 0.05 时，拒绝 H₀ 称为是“显著”的
- 当 α = 0.01 时，拒绝 H₀ 称为是“高度显著”的

第二类错误

而如果 H₀ 实际上为假（即 H₁ 为真），但根据样本错误地接受了 H₀，此时也犯了错误，称这类错误为第Ⅱ类错误（又称为 “存伪”错误）

犯第Ⅱ类错误的概率为 P(接受H₀ ∣ H₀为假) = P(接受H₀ ∣ H₁为真) = β

两种情况

		所做判断
		接受 H₀	拒绝 H₀
实际情况	H₀ 为真	正确（1 − α）	犯第Ⅰ类错误（ ≤ α）
实际情况	H₀ 为假	犯第Ⅱ类错误（β）	正确（1 − β）

p 检验法

在 p 值检验法中，无须事先给出显著性水平，在原假设 H₀ 成立的基础上所构造的检验统计量 U 以及拒绝域 𝒲 都与经典方法相同

p 检验的基本步骤
- 首先算出检验统计量的观测值（把它记为 u₀），再计算事件 |U| > |u₀| 的概率，假设 P(|U| > |u₀|) = p，这个 p 值就等于拒绝原假设的概率
- 如果这个 p 值很小，我们认为发生这个事件的可能性非常小，因而拒绝 H₀；如果这个概率不算太小，则接受原假设
p 值检验法和经典方法的关联：
- 假设设定了一个显著性水平 α，此时如果 p ≤ α，则表明比 α 更小概率值的事件发生了，故拒绝 H₀；
- 反之，若 p > α，则接受 H₀

单个正态总体参数的假设检

单个正态总体均值的假设检验

方差已知 (U 检验法)

检验统计量： $$ U=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1) $$

原假设 H₀	备择假设 H₁	拒绝域 𝒲
μ = μ₀	μ ≠ μ₀	$\mid U\mid\ge z_\frac{\alpha}{2}$
μ ≥ μ₀	μ < μ₀	U ≤ −z_α
μ ≤ μ₀	μ > μ₀	U ≥ z_α

方差未知

小样本 (n < 30) 情况下，用 t 分布来检验总体均值，通常称为 t 检验，统计量 $$ T=\frac{\bar{X}-\mu_{0}}{S / \sqrt{n}} \sim t(n-1) $$

原假设 H₀	备择假设 H₁	拒绝域 𝒲
μ = μ₀	μ ≠ μ₀	$\mid T\mid\ge t_\frac{\alpha}{2}(n-1)$
μ ≥ μ₀	μ < μ₀	T ≤ −t_α(n − 1)
μ ≤ μ₀	μ > μ₀	T ≥ t_α(n − 1)

单个正态总体方差的假设检验

均值已知

选取检验统计量 $$ \chi^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n) $$

原假设 H₀	备择假设 H₁	拒绝域 𝒲
σ² = σ₀²	σ² ≠ σ₀²	$\chi^2\ge \chi_\frac{\alpha}{2}(n)$ 或 $\chi^2\le \chi_{1-\frac{\alpha}{2}}(n)$
σ² ≥ σ₀²	σ² < σ₀²	χ² ≤ χ_1 − α(n)
σ² ≤ σ₀²	σ² > σ₀²	χ² ≥ χ_α(n)

均值未知

选取检验统计量 $$ \chi^{2}=\frac{(n-1) S^{2}}{\sigma_{0}^{2}}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n-1) $$

原假设 H₀	备择假设 H₁	拒绝域 𝒲
σ² = σ₀²	σ² ≠ σ₀²	$\chi^2\ge \chi_\frac{\alpha}{2}(n-1)$ 或 $\chi^2\le \chi_{1-\frac{\alpha}{2}}(n-1)$
σ² ≥ σ₀²	σ² < σ₀²	χ² ≤ χ_1 − α(n − 1)
σ² ≤ σ₀²	σ² > σ₀²	χ² ≥ χ_α(n − 1)

随机事件概率 p 的假设检验

选取检验统计量 $$ U=\frac{\bar{X}-p_{0}}{\sqrt{p_{0}\left(1-p_{0}\right) / n}} \stackrel{\text { 近似 }}{\sim} N(0,1) $$

原假设 H₀	备择假设 H₁	拒绝域 𝒲
p = p₀	p ≠ p₀	$\mid U\mid\ge z_\frac{\alpha}{2}$
p ≥ p₀	p < p₀	U ≤ −z_α
p ≤ p₀	p > p₀	U ≥ z_α

SJTU Notes

#SJTU #概率统计

概率统计

https://youyeyejie.github.io/posts/概率统计/

作者

youyeyejie

发布于

2025年1月11日

更新于

2025年7月3日

思想道德与法治上一篇

网络空间安全导论下一篇

概率统计

第一章 随机事件和概率

随机事件和运算

随机试验与随机事件

随机试验

随机事件

样本空间 Ω/S

随机事件关系与运算

关系

运算

运算规律

概率

概率的定义

频率的定义

统计概率

古典概率

几何概型

概率基本性质

条件概率

乘法公式

全概率公式

Bayes 公式

事件的独立性

利用独立事件的性质计算并事件的概率

伯努利试验概型

第二章 随机变量及其分布

随机变量及其分布函数

随机变量

随机变量的分布函数

离散型随机变量及其分布律

离散型随机变量概率分布

常见离散型随机变量

0-1分布 (两点分布)

二项分布 (伯努利概型)

负二项分布 (Pascal 分布)

几何分布

Poisson 分布

连续型随机变量及其概率密度

连续性随机变量的概率密度

常见连续型随机变量的分布

均匀分布

指数分布

正态分布 (Gaussian 分布)

标准正态分布

随机变量函数的分布

离散型随机变量函数的分布

连续型随机变量的分布

一般性定理

第三章 多维随机变量及其分布

二维随机变量

二维随机变量及其联合分布函数

二维离散型随机变量

由分布律求分布函数

二维离散型随机变量的边缘分布律

二维连续型随机变量

常用连续型二维随机变量分布

均匀分布

二维正态分布

二维随机变量的条件分布

二维离散型随机变量的条件分布

⼆维连续型随机变量的条件分布

二维随机变量的独立性

多维随机变量函数的分布

多维离散型随机变量函数的分布

多维连续型随机变量函数的分布

和的分布

线性函数的分布 Z = aX + bY + c

商的分布

平方和的分布

极值的分布

变量代换法

第四章 随机变量的数字特征

数学期望

数学期望的概念

数学期望的性质

随机变量函数的数学期望

一维随机变量

二维随机变量

方差

方差的概念

第一章随机事件和概率

第二章随机变量及其分布

第三章多维随机变量及其分布

第四章随机变量的数字特征

第五章大数定律和中心极限定理

第六章数理统计的预备知识

正态分布：X ∼ N(μ，σ²)

第七章参数估计

1. 方差 σ² 已知

方差 σ² 的置信区间

均值差 μ₁ − μ₂