统计量与分布
统计量
设 X1,X2,…,Xn 是来自总体 X 的一个样本,统计量是样本 X1,X2,…,Xn 的函数 g(X1,X2,…,Xn)。
关键特性:统计量中不含任何未知参数。
- 例如,设总体 X 的均值为 μ,方差为 σ2(均为未知参数)。
- Xˉ=n1∑i=1nXi 是一个统计量。
- S2=n−11∑i=1n(Xi−Xˉ)2 是一个统计量。
- g(X1,…,Xn)=Xˉ−μ 不是统计量,因为它包含了未知参数 μ。
常用统计量
设 X1,X2,…,Xn 为样本,总体均值为 μ,方差为 σ2。
-
样本均值 Xˉ
Xˉ=n1∑i=1nXi
性质:E(Xˉ)=μ, D(Xˉ)=nσ2。
-
样本方差 S2
S2=n−11∑i=1n(Xi−Xˉ)2
性质:E(S2)=σ2,即样本方差是总体方差的无偏估计。
-
样本标准差 S
S=S2=n−11∑i=1n(Xi−Xˉ)2
-
样本 k 阶原点矩 Ak
Ak=n1∑i=1nXik(k=1,2,…)
特别地,A1=Xˉ。
-
样本 k 阶中心矩 Bk
Bk=n1∑i=1n(Xi−Xˉ)k(k=1,2,…)
特别地,B1=0, B2=n1∑i=1n(Xi−Xˉ)2=nn−1S2。
顺序统计量
概念
将样本观测值 X1,X2,…,Xn 按从小到大的顺序排列,得到 X(1)≤X(2)≤⋯≤X(n)。称 X(k) 为第 k 顺序统计量。
- 样本极小值: X(1)=min(X1,X2,…,Xn)
- 样本极大值: X(n)=max(X1,X2,…,Xn)
- 样本极差(全距): R=X(n)−X(1)
- 样本中位数:
M={X(2n+1),21(X(2n)+X(2n+1)),n 为奇数n 为偶数
性质
设总体 X 的概率密度函数为 f(x),分布函数为 F(x)。
-
样本极大值 X(n) 的分布函数与密度函数:
- FX(n)(x)=P(X(n)≤x)=P(所有Xi≤x)=[F(x)]n
- fX(n)(x)=n[F(x)]n−1f(x)
-
样本极小值 X(1) 的分布函数与密度函数:
- FX(1)(x)=P(X(1)≤x)=1−P(X(1)>x)=1−P(所有Xi>x)=1−[1−F(x)]n
- fX(1)(x)=n[1−F(x)]n−1f(x)
-
第 k 顺序统计量 X(k) 的密度函数:
fX(k)(x)=(k−1)!(n−k)!n![F(x)]k−1[1−F(x)]n−kf(x)
三大分布
χ2 分布
概念
设 X1,X2,…,Xn 相互独立,且都服从标准正态分布 N(0,1),则随机变量
Y=∑i=1nXi2
服从自由度为 n 的 χ2 分布 (卡方分布),记为 Y∼χ2(n)。
性质
设 Y∼χ2(n)。
- 期望与方差:E(Y)=n, D(Y)=2n。
- 可加性:设 Y1∼χ2(n1), Y2∼χ2(n2),且 Y1,Y2 相互独立,则
Y1+Y2∼χ2(n1+n2)
- 分位数:对给定的 α∈(0,1),称满足 P(Y>χα2(n))=α 的点 χα2(n) 为 上 α 分位数。
t 分布
概念
设 X∼N(0,1), Y∼χ2(n),且 X,Y 相互独立,则随机变量
T=Y/nX
服从自由度为 n 的 t 分布 (学生氏分布),记为 T∼t(n)。
性质
设 T∼t(n)。
- 概率密度函数 f(t) 是一个关于 t=0 对称的偶函数,其图像关于纵轴对称。
- 期望与方差:当 n>1 时,E(T)=0;当 n>2 时,D(T)=n−2n。
- 分位数:上 α 分位数 tα(n) 满足 P(T>tα(n))=α。由对称性可知 t1−α(n)=−tα(n)。
- 极限分布:当 n→∞ 时,t(n) 分布的极限是标准正态分布 N(0,1)。
F 分布
概念
设 U∼χ2(n1), V∼χ2(n2),且 U,V 相互独立,则随机变量
F=V/n2U/n1
服从自由度为 (n1,n2) 的 F 分布,记为 F∼F(n1,n2)。n1 称为第一自由度,n2 称为第二自由度。
性质
设 F∼F(n1,n2)。
- 倒数性质:若 F∼F(n1,n2),则
F1∼F(n2,n1)
- 分位数:上 α 分位数 Fα(n1,n2) 满足 P(F>Fα(n1,n2))=α。由倒数性质可得:
F1−α(n1,n2)=Fα(n2,n1)1
- 与 t 分布的关系:若 T∼t(n),则 T2∼F(1,n)。
正态总体的抽样分布
设 X1,X2,…,Xn 是来自正态总体 N(μ,σ2) 的一个样本,Xˉ 是样本均值,S2 是样本方差。
单个正态总体
-
重要性质:样本均值 Xˉ 与样本方差 S2 相互独立。
-
Xˉ∼N(μ,nσ2),标准化后有:
σ/nXˉ−μ∼N(0,1)
-
卡方统计量:
σ2(n−1)S2=σ21∑i=1n(Xi−Xˉ)2∼χ2(n−1)
-
t 统计量 (最常用):
S/nXˉ−μ∼t(n−1)
两个正态总体
设 X1,…,Xn1 是来自 N(μ1,σ12) 的样本,Xˉ,S12 分别为其样本均值和方差。
设 Y1,…,Yn2 是来自 N(μ2,σ22) 的样本,Yˉ,S22 分别为其样本均值和方差。两样本相互独立。
-
F 统计量:
S22/σ22S12/σ12∼F(n1−1,n2−1)
特别地,若 σ12=σ22,则 S22S12∼F(n1−1,n2−1)。
-
t 统计量 (假设 σ12=σ22=σ2 未知):
- 构造 合并样本方差:
Sw2=n1+n2−2(n1−1)S12+(n2−1)S22
- 相应的 t 统计量为:
Swn11+n21(Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2)
例题
[问答题]
设 X1,X2,X3,X4 为来自总体 N(1,σ2)(σ>0) 的简单随机样本,Xˉ 为样本均值,S2 为样本方差,则正确的是
- A. ∣X3+X4−2∣X1−X2∼t(2)
- B. σ24(Xˉ−1)2∼χ2(2)
- C. 2σ21[(X1−X2)2+(X3−X4)2]∼χ2(2)
- D. S24(Xˉ−1)2∼F(3,1)
[答案]
答案:C
已知条件:Xi∼N(1,σ2),样本容量 n=4,总体均值 μ=1。
A 选项分析:
X1−X2∼N(1−1,σ2+σ2)=N(0,2σ2)。
X3+X4−2∼N(1+1−2,σ2+σ2)=N(0,2σ2)。
该统计量不符合 t 分布的 χ2(k)/kN(0,1) 结构。故 A 错误。
B 选项分析:
根据样本均值的分布,Xˉ∼N(μ,σ2/n)=N(1,σ2/4)。
标准化后得到 σ/2Xˉ−1∼N(0,1)。
其平方服从自由度为 1 的卡方分布:
(σ/2Xˉ−1)2=σ24(Xˉ−1)2∼χ2(1)
选项中自由度为 2,故 B 错误。
C 选项分析:
令 Y1=X1−X2,Y2=X3−X4。
由于 Xi 独立同分布,我们有:
Y1∼N(1−1,σ2+σ2)=N(0,2σ2)
Y2∼N(1−1,σ2+σ2)=N(0,2σ2)
由于 X1,X2,X3,X4 相互独立,所以 Y1,Y2 也相互独立。
将它们标准化:
2σ2Y1∼N(0,1)
2σ2Y2∼N(0,1)
根据卡方分布的定义,两个独立的标准正态变量的平方和服从自由度为 2 的卡方分布:
(2σ2Y1)2+(2σ2Y2)2=2σ2Y12+Y22∼χ2(2)
代回 Y1,Y2 的表达式:
2σ2(X1−X2)2+(X3−X4)2=2σ21[(X1−X2)2+(X3−X4)2]∼χ2(2)
故 C 正确。
此统计量结构符合单个总体的 F 统计量形式 \frac{n(\bar{X}-\mu)^2}{S^2}。
本题中 n=4, \mu=1,所以
F = \frac{4(\bar{X}-1)^2}{S^2} \sim F(1, n-1) = F(1, 3)
选项给出的分布是 F(3,1),第一自由度和第二自由度颠倒,故 D 错误。