概率与统计基础 PROBABILISTIC AND STATISTICAL FUNDAMENTALS
基本概念 随机性 Randomness/uncertainty 世界充满了随机性?上帝不扔骰子?质量、变化性、加工时间、订单、缺陷 概率分布 Probability distribution 用概率分布( Probability Distributions )表示随机性 密度函数、密度 Probability density function (PDF) , f ( x ) 累积概率分布函数 Cumulative distribution function(CDF) 概率质量函数、概率 Probability mass function , p ( x ) , 抽样 Sampling 根据某种概率分布抽样产生随机值 3 Simulation System 观测 拟合 Output Input Actual System Probability Distribution 抽样 样本
均匀分布 Uniform 表示形式 参数 均值: ( a + b )/2, 方差: ( a + b ) 2 /12 应用 常用于取值在有限区间内大致均匀的场合 有时候也用于只知道取值范围,而缺乏其他信息的情况 在缺少信息的情况下,均匀分布的方差大于其它分布,比如三角分布 5
指数分布 Exponential 表示形式 参数含义 均值: b 顾客进入系统的时间间隔 方差 : b 2 密度函数 累积分布函数 应用 常用于表示随机到达和随机故障的时间间隔 6
正态分布 Normal Distribution 又称高斯分布,表示形式 参数含义 总体平均值( Mean ): 方差( Variance ) : 2 密度函数 应用 常用于表示取值对称的分布 根据中心极限定理( Central limit theorem ), 常用于取值是其他值之和的场合 转化为标准正态分布 正态分布具有线性组合的特性 7
三角分布 Triangular distribution 下限 a 、众数 c 、上限 b 密度函数 应用 通常用于准确的分布形式未知但比较容易估计最小值、 最大值、最可能值的场合。很多情况下,这三个参数 易于通过分析判断来确定。 在风险成本分析中应用比较多。 8
伽玛分布 Gamma 表示 X ~ Γ( α , β ) α 形状参数 , β 尺度参数,均值 k ,方差 k 2 性质 当 α = 1 时, Γ(1, β ) 就是参数为 β 的指数 分布 , 记为 exp ( β ) α = n , Γ( n , β ) 就是 Erlang 分布 可加性:随机变量 X 1 , X 2 , …, X n 相互独立, 并且都服从 Gamma 分布,即 X i ~ Γ( β i , α ) , 则 X 1 + X 2 + …+ X n ~ Γ( β 1 + β 2 + …+ β n , α ) 应用 常用于表示某些任务所需的时间 9
爱尔朗分布 Erlang 表示: X ~ Erl ( k , ) k 阶分布 , 取值 [0, + ], 均值 k ,方差 k 2 应用 实际上就是 k 个参数为 的 IID 指数分布随机变量之和,因此通常用于表示一个多阶段的过程,每个阶段符合指数分布,比如 k 个串联的服务台。 多用来表示完成一个任务所需的时间,类似指数分布。 指数分布是爱尔朗分布的一个特例, k = 1 时,变为指数分布。 k > 30 时,可近似为正态分布。 指数分布是伽马分布的一个特例,其中形状参数 取整数时 ( k )。 10
伯努利试验 Bernoulli X ~Bern ( p ) 二个条件 又称 两点分布 或者 0-1 分布:任何一次试验有且仅有二种相互对立的结果,而且必须是其中的一种。 相互独立:任何一次试验的结果都是相互独立的。 成功则 x = 1 ,失败则 x = 0 。 p 是成功概率, q = 1 - p 是失败概率。 11
二项分布 Binomial 含义 X ~ B ( n , p ) n 次相互独立的试验中获得 x 次成功的概率 分布参数 均值: 方 差: 要求 试验是伯努利过程 当 n = 1 时,二项分布就是伯努利分布 12
二项分布举例 13 此处原著有错
负二项分布 ( Negative Binomial ) 表示 K ~ NB( r , p ) 进行伯努力试验, p 是成功概率, 所有到成功 r 次时即终止的独立试验中,失败次数 x 是一个随机变量,其概率为 实际上进行了 r + x 次伯努利试验 又称 Pascal 分布 分布参数 均值: 方 差: 14
几何分布( Geometric ) 表达式 含义 平均不合格率为 p , 那么检测多少个部件才能发现第 1 个不合格部件? x 是第 1 个不合格部件出现的试验总数。 15
超几何分布( Hypergeometric ) 定义: 设 N 表示某个有限集合的大小, D 是其中的一部分( D N ),如果从集合 N 中随机抽取 n 项,那么被抽中的样本在 D 中的数量 x 是一个随机变量,服从超几何分布,概率为 , 分布参数 均值 方差 16
对二项分布的近似 二项分布的计算非常复杂 正态分布对二项分布的近似 当 p 接近 0.5 时,正态分布是二项分布的一个很好的近似,即使在样本数量非常小的情况下也是如此 在 p 偏离 0.5 时,近似的效果就会变得很差 , 但是,对于 p 显著偏离 0.5 的值, n 值越大,正态分布对二项分布的近似效果会更好 在 np 5 正态分布的近似效果依然很好 , 泊松分布对二项分布的近似 对于很小的 p 和很大的 n , np 5 时,用泊松分布近似二项分布 18
卡方分布( Chi-Square Distribution ): χ 2 如果 n 个随机变量服从标准正态分布 N (0, 1) ,则其平方和服从 Chi 方分布,自由度为 n 如果 n 个随机抽样取自 N ( , 2 ) ,则 卡 方分布常用于检验 ,对正态分布的 方差做出判断 19
如果 x 属于标准正态分布,而 方分布,则随机变量服从自由度为 k 的 t 分布,密度函数为 如果 n 个随机抽样取自 N ( , 2 ) ,则 常用做构建置信区间, 对正态分布 的均值 做出判断 t 分布 20
F 分布 如果 和 是自由度为 u 和 v 的卡方分布,则它们的比值服从自由度为 u 和 v 的 F 分布 , 密度函数为 如果 n 1 个随机抽样取自 N ( 1 , 1 2 ) , n 2 个随机抽样取自 N ( 2 , 2 2 ) ,它们 相互独立,则 用途:对两个正态分布的方差之比 做出推断 21
估计 (Estimation) 随机变量,我们需要知道它们的真值,比如均值( ) 和方差( 2 ) 通常用样本均值( )和样本方差( )来估计 大小为 n 的样本 ( … ) 估计的准不准? 用置信区间进行表示 中心极限定理 ( Central-limit theorem ) 设从均值为 μ 、方差为 σ 2 的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 μ 、方差为 σ 2 / n 的正态分布 22 对已知方差样本均值的置信区间 其中 z 是标准正态分布的分位点 置信水平 100(1- )% 解释置信区间的含义 注意区间宽度与置信水平的关系 注意如何缩短区间( , n ) 估计精度
置信区间 (Confidence Interval) 对 未 知方差样本均值的置信区间 其中 t 是自由度为 ( n -1) 的 t 分布的分位点 23 方差的置信区间 其中 χ 2 是自由度为 ( n -1) 的 χ 2 分布的分位点 已知方差两个均值之差的置信区间
置信区间 (Confidence Interval) 未 知方差两个均值之差的置信区间 两 方差之比的置信区间 其中 u = n 1 -1, v = n 2 -1 24
假设检验( HYPOTHESIS TESTING ) 根据某个标准对一个假设的正确性做出估计 假设检验的表述 其中 是未知均值, 是其一个假设的值 表述 H 是一个空假设,而表述 H 1 是一个替代假设。 计算一个值,据此判断是否接受上述假设 两类错误 I 类 : 为 H 真但拒绝:虚警 false alarm ,概率是 II 类 : 为 H 假但接受:漏警 missed alarm ,概率是 检验的效率 Power = 1 − β = P( 拒绝 H |H 错的 ) 25 已知方差的均值检验 样本统计量为 如果 则拒绝 H , 否则接受 H 其中 z 是标准正态分布的分位点 可以进一步扩展为检验两个均值之差 已知方差的两个均值的检验 样本统计量为 拒绝 H 的判据为
假设检验( HYPOTHESIS TESTING ) 未知方差的均值检验 26 样本统计量为 未知方差的两个均值的检验 如果两个样本的方差相等,则统计量为 如果两个样本的方差不相等,则统计量及自由度为 拒绝 H 的判据为 拒绝 H 的判据为 方差的检验 样本统计量为 拒绝 H 的判据为 类似的检验还有