二维随机变量数字特征
数学期望
设 Z=g(X,Y) 是二维随机变量 (X,Y) 的函数,其数学期望 E(Z)=E(g(X,Y)) 的计算方法如下:
-
离散型随机变量
若 (X,Y) 的联合分布律为 P(X=xi,Y=yj)=pij,则
E(Z)=E(g(X,Y))=∑i=1∞∑j=1∞g(xi,yj)pij
该期望存在的前提是上述级数绝对收敛。
-
连续型随机变量
若 (X,Y) 的联合概率密度为 f(x,y),则
E(Z)=E(g(X,Y))=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
该期望存在的前提是上述积分绝对收敛。
重要性质:
- 对于任意常数 a,b,有 E(aX+bY)=aE(X)+bE(Y)。
- 若 X,Y 相互独立,则 E(XY)=E(X)E(Y)。
- 若 X,Y 相互独立, g(x) 和 h(y) 是两个函数,则 E[g(X)h(Y)]=E[g(X)]E[h(Y)]。
协方差和相关系数
概念
-
协方差
协方差(Covariance)是用来度量两个随机变量之间线性关系强度的数字特征。记为 Cov(X,Y)。
- 定义式:
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
- 计算式(更常用):
Cov(X,Y)=E(XY)−E(X)E(Y)
-
相关系数
相关系数(Correlation Coefficient)是标准化后的协方差,排除了两个变量量纲的影响,更客观地度量它们之间的线性相关程度。记为 ρXY。
- 定义式:
ρXY=D(X)D(Y)Cov(X,Y)
其中 D(X)>0,D(Y)>0。也写作 ρXY=σXσYCov(X,Y)。
-
相关性的描述
- 若 ρXY=0,称 X 和 Y 不相关。
- 若 ρXY>0,称 X 和 Y 正相关。
- 若 ρXY<0,称 X 和 Y 负相关。
- 若 ∣ρXY∣=1,称 X 和 Y 完全线性相关。
协方差的标准化
协方差 Cov(X,Y) 的数值大小与 X 和 Y 的量纲(单位)有关,这使得它在比较不同随机变量之间的线性关系强度时存在局限性。例如,将身高从米变为厘米,会导致其方差和与其他变量的协方差发生数值上的巨大变化,但其内在的线性关系并未改变。
为了消除量纲的影响,可以对随机变量进行标准化(Standardization),得到标准化随机变量:
X∗=D(X)X−E(X)
Y∗=D(Y)Y−E(Y)
其中 D(X)>0,D(Y)>0。
标准化随机变量具有如下性质:
- 期望为 0:E(X∗)=0,E(Y∗)=0
- 方差为 1:D(X∗)=1,D(Y∗)=1
计算标准化随机变量 X∗ 和 Y∗ 的协方差:
Cov(X∗,Y∗)=E(X∗Y∗)−E(X∗)E(Y∗)=E[D(X)X−E(X)⋅D(Y)Y−E(Y)]−0⋅0=D(X)D(Y)1E{[X−E(X)][Y−E(Y)]}=D(X)D(Y)Cov(X,Y)
这正是相关系数 ρXY 的定义。因此,相关系数 ρXY 的本质就是对随机变量 X 和 Y 标准化后的协方差。它是一个无量纲的量,其绝对值大小客观地反映了两个变量间的线性相关程度。
性质
协方差的性质
- 对称性:Cov(X,Y)=Cov(Y,X)。
- 自身关系:Cov(X,X)=D(X)。
- X,Y 相互独立 ⇒Cov(X,Y)=0 (X,Y 不相关)。
- 重要:反之不成立。即 Cov(X,Y)=0 不能推出 X,Y 相互独立。
- 特例:若 (X,Y) 服从二维正态分布,则 X,Y 不相关是 X,Y 相互独立的充要条件。
- 线性性质:
- Cov(aX,bY)=abCov(X,Y)
- Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- Cov(aX+b,cY+d)=acCov(X,Y)
- 方差和差公式:
D(X±Y)=D(X)+D(Y)±2Cov(X,Y)
推广到 n 个随机变量:
D(∑i=1nXi)=∑i=1nD(Xi)+2∑1≤i<j≤nCov(Xi,Xj)
相关系数的性质
- 有界性:∣ρXY∣≤1。
- 完全线性相关的充要条件:∣ρXY∣=1⟺P(Y=aX+b)=1 对某些常数 a=0,b 成立。
- 当 ρXY=1 时,a>0(完全正相关)。
- 当 ρXY=−1 时,a<0(完全负相关)。
- 相关系数对线性变换的性质:设 a,b,c,d 是常数,且 a=0,c=0,则
ρaX+b,cY+d=∣ac∣acρXY={ρXY,−ρXY,ac>0ac<0
这表明相关系数对变量的单位和原点的选择不敏感,只与其线性关系的方向有关。