大川老师的高数统计教学(第四期)
2020-08-06 正领国际教育

2. CDF及其应用

2.1 CDF介绍 

      cumulative distribution function

是个函数

针对连续变量

意义:代表了某个取值x之前所有概率密度的累加

写作:

122.jpg

求法:

123.jpg


注意该处用大写F的表达与PDF做了区分。

它与pdf的关系即小于x取值的所有概率密度的累加,即变量X最小取值范围到取值x的积分,该积分在书写时注意,定积分范围中包含x, 在这里它代表一个取值的数值,所以在对PDF做积分时,我们要用虚变量(dummy variable) u来替代x,即f(u)而不是f(x)来避免书写错误。

CDF是PDF关于x的积分则一样,将CDF关于x求导即得到PDF的函数解析式。

图像:

CDF的图像叫作肩形线(ogive), 其重要特性是一条单调递增的曲线。Cumulative代表积累,概率密度的累加是一个约来越多的过程,作为PDF的积分,其代表了PDF曲线下的面积。

用一组图来较好的说明:

121.jpg

其中第一个图为某连续变量PDF的图像,第二个为其CDF图像。其中图1中的阴影面积代表图2中的c点对应的F(c)。肩形线始终单调递增,其斜率(抖缓程度)和PDF的增长和减少有关,图像中c值前后的变化可以比较明显的对比出来。该变量取值范围ɑ ≤ x ≤ b,最大取值为b,则根据概率基本定义,b处为全段取值的概率积累,即为1。ɑ处概率没有任何累加,即为0。

可总结成,若有PDF:

124.jpg

以下用几个例子来阐述CDF在考试中的几种考法和其作用:

2.2 作用1:求区间概率

区间概率:

125.jpg

结合图像可以清楚的佐证,a,b区间概率,蓝色部分面积,由橙色斜阴影部分面积 P(X<b) 减红色部分面积 P(X<a) , 结合CDF的定义,可以比较好的理解。

126.jpg

Eg7.

某连续变量X有PDF:

127.jpg

求其CDF: F(x),由此证,

128.jpg

若变量X为正态分布,求:

129.jpg


130.jpg

最后CDF写成分段形式,标注取值范围:

131.jpg

第二部分,求证

132.jpg

这一部分我们拆绝对值,得到一个关于X的区间概率表达:

133.jpg

接下来工作就是求:

134.jpg

第三部分,对于X为正态分布,区间概率需要先标准化:

135.jpg

136.jpg

作用2:精准计算百分位数 percentiles

大家应该对频数积累曲线图不陌生(cumulative frequency graph), 其可帮助我们估算(estimate)百分位数(percentiles)

比如下面的这个频数积累曲线图:

137.jpg

图片来源:Cambridge international AS&A Level mathematics: probability & statistics 1. Dean Chalmers

总积累频数为152,若要求其中位数,或者说是50%百分位数,我们找到其一半的积累频数76,再用尺子水平方向对至频数积累曲线,在其横轴上找到9.8。

注意:频数积累曲线图只能估算百分位数,因为我们需要靠尺子去量取,估算度数等,中间误差不小。

而CDF,可以帮我们精准计算百分位数,两者有精确值上的差别。

例如,中位数,可以理解为50%的分位数(50% quartile/percentile), 根据百分位数的定义:某变量的取值小到大排序所累计概率,某个数据取值点上的概率积累即为这一概率百分比的百分位数。

所以某中位数x在CDF中,可体现为,满足

138.jpg

的x值。

Eg8.

有连续变量X, 其PDF为:

139.jpg

求其四分卫距(interquartile range,IQR)

解:

IQR四分位距的定义为:

140.jpg

相减的数值。所以本题的关键是求Q3和Q1

而求百分位数需要用到CDF。

141.jpg

用CDF求得75%百分位数和25%百分位数分别为Q3和Q1

142.jpg

作用3:变量替换

若变量Y是关于变量X的函数,

即 Y = h(X)

已知X的PDF: f(x), 可求得CDF F(x)

求关于Y的CDF(避免重复用其他字母表示):G(y), 

替换的逻辑根据CDF的定义:

143.jpg

Eg.9

某连续变量X有PDF:

144.jpg

求Y的pdf

解:

145.jpg

注意变量替换过程中,变量的范围也需要根据替换法发生变换:

146.jpg

最后y的PDF写成分段形式:

147.jpg

Eg10.

148.jpg

某连续变量X的图像如上,变量X仅在范围0≤x≤3内有取值, 

求证,X的CDF为:

149.jpg

解:

这种分段PDF图像求CDF的题,在教学过程中发现,很多同学都较容易出错。

首先,我们用概率之和为1的概率基本定义求得值,然后在(1≤x≤3段)做积分的时候,CDF为概率积累,而PDF为分段式,读者们不要忘记加上之前部分(0≤x≤1段)的概率积累。

(1) 求k

PDF全段积分之和为1,图中大三角形面积之和为1

150.jpg

(2) 通过图像表达PDF


151.jpg

(3) 积分求CDF

152.jpg

整合写成分段式,得到结论:

153.jpg

上一篇:没有信息! 下一篇:必看系列 || 大川老师的高数统计教学(第三期)