三、 常见的连续型随机变量的分布

[b][br][br][br](一)正态分布[br][br][/b][br] 正态分布,又称为高斯分布,作为连续随机变量的概率分布,是概率统计中最常用的概率分布。一般来讲,为了便于区分,在描述连续随机变量的分布时,我们使用概率密度函数[math]f\left(x\right)[/math],而不是在离散随机变量中使用的[math]p\left(X\right)[/math] 。[br] [br] 如果随机变量[img width=15,height=15]file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml12200/wps3.png[/img]的概率密度函数为:[br][br] [math]f\left(x\right)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{\left(x-\mu\right)^2}{2\sigma^2}}[/math]
则称[math]X[/math]服从数学期望为[math]\mu[/math],方差为[math]\sigma^2[/math]2的正态分布,记为[math]X\sim N\left(\mu,\sigma^2\right)[/math]。简单来说,[math]\mu[/math]是整个概率分布的平均值,从图形上决定了其位置,[math]\sigma[/math]是整个概率分布的偏差水平,从图形上决定了其幅度。下图是[math]\mu=0,\sigma=1[/math]时的正态分布图,称为标准正态分布。见图1-2-8
[center][img]https://s21.ax1x.com/2025/02/22/pElM1pt.png[/img][br]图1-2-8 正态分布图[/center][br] 正态分布在现实生活的各个场景中有着极为广阔的应用,尤其是在大数据分析领域,由于正态分布具有形式简单、性质优良的特性,特别适合机器学习中大规模批量化处理的模型。[br][br] 正态分布是典型的统计学基础定理——中心极限定理的应用体现。中心极限定理是与大数定理并列的重要概率理论。其核心思想是:大量的独立随机变量相加,不论各个随机变量的分布是怎样的,它们的加和必定会趋向于正态分布。而大数定理的含义是,随机变量[math]X[/math]多个观察值的均值会随着观察值的增加越发趋近于期望值[math]\mu[/math],即均值服从期望为[math]\mu[/math]的正态分布。
[b]二、指数分布[br][br][br][/b] 在连续型随机分布中,存在一个与指数有关的分布,指数分布。[br] 如果随机变量[math]X[/math]的概率密度函数为:[br] [br] [math]f\left(x\right)=\lambda e^{-\lambda x},x>0;0,x\le0[/math]
则称[math]X[/math]服从参数为[math]\lambda[/math]的指数分布,记为[math]X\sim E\left(\lambda\right)[/math],其中[math]\lambda>0[/math]为常数。下图为[math]\lambda=1[/math]时的指数分布概率密度图。见图1-2-9。
[center][/center][center][img]https://s21.ax1x.com/2025/02/22/pElMRAJ.png[/img][br]图1-2-9 指数分布图[/center]
指数分布的一个重要性质是“无记忆性”。用数学语言来描述,即服从指数分布的随机变量[math]X[/math]满足:[br] [math]P\left(X>s+t\mid X>s\right)=P\left(X>t\right)[/math],其中,[math]s[/math]和[math]t[/math]是两个常数。[br][br] 举例来说,设随机变量[math]X[/math]是灯泡的使用时间,上面的公式是指,灯泡在已经使用[math]s[/math]小时的条件下,使用时间长于[math]s+t[/math]小时的概率与灯泡使用时间长于[math]t[/math]小时的概率是相等的,这意味着,灯泡已经忘记了自己已使用了[math]s[/math]小时,这就是“无记忆性”,正因为这一特性,指数分布常常应用于排队论中。[br][br] 排队论,也称随机服务系统理论。在这一理论中,我们常常假定顾客到来是“不可预测”的随机事件,而这一特性符合泊松分布的应用场景,所以顾客单位时间内到达的人数服从泊松分布,与之相对应,顾客的到达时间间隔服从指数分布。设单位时间内到达的顾客数量为[math]\lambda[/math],则顾客的到达时间间隔[math]T[/math]服从如下的概率密度函数:
[math]f\left(t\right)=\lambda e^{-\lambda t},t\ge0[/math],式中,[math]T[/math]的均值为1/[math]\lambda[/math],方差为1/[math]\lambda^2[/math]。[br][br] 以上二种连续分布的动态演示图已用数学软件Geogebra画出,学习者可以调整各分布的参数查看图形变化过程,其图形可[color=#0000ff][b][url=https://www.geogebra.org/m/hcnt8nj9]下载[/url][icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/b][/color]研究。
[center]图2-10 二种分布在Geogebra中的呈现[/center] 以上内容均在百度网盘可供下载,[color=#0000ff][b][url=https://pan.baidu.com/disk/main?from=oldversion#/index?category=all&path=%2F%E9%85%8D%E5%A5%97%E8%B5%84%E6%BA%90%E4%B8%8B%E8%BD%BD%2F%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83]下载[/url][icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/b][/color]网址为:
[b][size=200][size=150]探索一:排队论仿真[/size][/size][br][/b][br] 关于排队论(Queuing Theory),也称随机服务系统理论。关于排队论的理论模型众多,且算法成熟。但如果仅用以上理论描述,直观感不强;如使用一些专业软件进行模拟,专业性太强,大部分学生亦无法使用,为此,编者利用Excel 2013 VBA软件编辑了一款多参数可调节的排队仿真软件,模拟逼真,仿真直观,并且给出了多个参数供仿真过程的动态即时调整。软件可供下载研究,也可手机端观看演示,请扫描右边的二维码。[br][center][img]https://www.freeimg.cn/i/2024/04/22/66260958496fc.png[/img][/center]
[b] 排队仿真软件的使用说明:[br][/b][br] 本软件内容是提供一种排队模型新的仿真技术实现方法,以解决专业仿真软件应用性不普遍的问题。[br][br] 本仿真软件提供如下技术方案:[br] 1.采用Excel 2016作为模拟呈现的环境,此环境在具备要求的绝大多数电脑中均可以实施,提供了一种普遍应用场景。[br] 2.模拟算法对排队论中的主要几种概率分布模型进行参数模拟。[br] 顾客在一个时间段内到达的人数,服从参数为[math]\lambda[/math]的泊松分布,概率值为[math]p\left(X=k\right)=\frac{\lambda^k}{k}e^{-\lambda},k=0,1,2...[/math],可以根据经验值产生随机[math]\lambda[/math]值,可以做到适时调整,以便模拟不同时间段的到达人数。[br] 顾客到达的间隔时间,服从参数为[math]\lambda[/math]的指数分布,[color=#0000ff]概率值为[/color][math]f\left(x\right)=[br][br][/math],可以由算法产生服从指数分布的顾客到达时间间隔,并进行模拟呈现。[br] 柜台的服务时间,设定为服从期望为[math]\mu[/math],方差为[math]\sigma^2[/math]的正态分布,概率值为[math]f\left(x\right)=\frac{1}{\sqrt{2\pi\sigma}}e^{\frac{\left(x-\mu\right)^2}{2\sigma^2}}[/math],可以由算法产生5个柜台的服务效率,并参数可调。同时通过成比例的调整参数,可以动态调整至无限多柜台,并进行模拟呈现。[br] 3.通过色块的灭失及出现,可以模拟顾客到达、办理、离场的动态过程,并以数字的方式呈现拥挤度和柜台的空闲度,给需求者以显性的决策信息。[br] 4.通过实时图形的方式显示顾客的到达程度、时间间隔及柜台服务的效率状态。
[b] 本仿真软件的应用场景是:[br][br][/b] 本仿真软件的目的在于能为大量有排队现实场景需求的企事业单位提供动态模拟仿真演示及效率报告,合理安排人力物力资源,为提高服务能力和客户体验提供技术解决方案。比如防疫检测、各学校报名、政府服务大厅客服、银行服务、超市收银、餐厅服务、机场安检等。一是在技术层面上解决了动态演示和参数动态可调的问题。目前并没有在非仿真专用环境下可实现多参数可调的排队动态演示的技术方案。二是在应用层面上解决了有排队场景的大量企事业单位评经验决策的问题。本发明应用场景简单,人人可用。附图说明:
[center][img]https://www.freeimg.cn/i/2024/04/23/66270a814f805.png[/img][/center]
上图为本仿真软件的整体页面示意图,说明如下:[br] 本方案具体构成主要包括包括前端仿真模拟演示系统及后端数据保存及分析系统。前端演示包括:参数调节区、操作区、排队模拟区、图表演示区、效率参数显示区、参数说明区等。
[b] 具体实施方式:[br][/b][br] 下面将结合本软件的附图,对本软件中的实施方法技术方案进行清楚、完整地描述,显然,所描述的实施方法仅仅是本软件的一个实例。而不是全部的实例。[br]请参阅上图,进行如下步骤:[br] 1.首先先按“初始化”[img][/img]键,对后台数据进行清理,并对初始参数进行设定。[br][br] 2.根据实际场景,对各参数进行调节,可以调节的参数有:[br][b] 仿真时间:[/b]仿真时间是指需要模拟的时间段,以秒为单位。输入区间小于3600秒(一小时),大于60秒(一分钟)。如果想模拟更长时间段,请酌情均分至不同的秒段进行处理。如要模拟4个小时的排队情况,可以将每个小时的[math]\lambda[/math]均分为10分钟(600秒),共2400秒进行模拟,同时还可调节每个时间段的[math]\lambda[/math]。
[b] 模拟时间:[/b]是指把仿真时间分为几个模拟时间段,以便提醒模拟者在合适的时间更换λ。一般为仿真时间的整除数,如仿真时间为2400秒,则设为600秒,即4个600秒。如果时间不分段,即不需在模拟过程中按时间段调整λ值,则应与仿真时间设置一致。[br][br][b] λ值:[/b]是指在一个时间段内顾客平均到达的人数。[br][br][b] 服务效率设定:[/b]五个柜台的服务时间符合均值为μ秒,标准差为σ秒的正态分布。如想增加柜台数量,可以尝试增加柜台1的服务效率,服务时间减半,以此类推,可以无限增加柜台数。[br][br][b] 加速倍数[/b][b]:[/b]是指加速演示时间的倍数值。[br][br][b] 柜台个数[/b][b]:[/b]是指服务柜台的个数限定,初始值是5,可以在模拟中根据拥挤程度随时加减。[br][br] 3.设置完成后,按“仿真演示”[img][/img]键开始仿真,按“停止退出”[img][/img]键停止。[br][br] 4.查看效率值,进行决策判断。
[size=150][b]探索二:游戏中的概率——“吹牛”[br][/b][/size][br] 【游戏规则】[br][br] 游戏名称为“吹牛”,游戏人数为2人以上,每人手上有一个骰盅,装有相同数量颗骰子,一般为5~10颗,或根据游戏参与者自行商定。[br][br] 游戏开始后,大家一起摇骰子,然后从庄家开始顺时针或者逆时针的顺序叫牌,庄家先猜。假设庄家说5个4,意思是猜所有人的骰子里,至少有5个骰子是4点。接下来由下一家叫牌,下一家如果觉得庄家不足5个4,可以叫所有人开骰盅看骰子,所叫的骰子数目够的话(比如有5个4、6个4或更多数目的4),开的一家就输了。但是,如果下一家相信庄家,觉得所有玩家的骰子加起来至少有5个4,那么下一家必须重新叫一组数字,这一组数字不能比庄家叫的那组数字小,并且其中有个数字比庄家的大,比如叫6个4(前面的数字比庄家的大)、5个5(后面的数字比庄家的大)都是可以的。至此,下一家操作完毕,由下下家叫牌,重复进行,直到有玩家开盅,本局才结束。[br] 注意:[br] 1、骰子为1的点数可以代表任何数。[br] 2、如果有玩家叫过1点了,1就不能代表任何数了。[br] 3、在轮到某玩家发话时,包括自己在内的玩家都可以选择双开,双开的话,输家的输得的游戏币是要翻倍的。[br] 4、玩家在一定的时间内必须完成叫牌或开牌动作,否则系统将自动按最后一个玩家的叫牌数强行开牌。
【数学描述】[br] 定义:假设把一个骰子的每个面定义为{一、二、三、四、五、六},分别对应点数{1、2、3、4、5、6}。这里假定“一”可代替任何面。设有[math]m[/math]个人玩“吹牛”游戏,手中各有[math]n[/math]个骰子,抛出之后,把全部相同面的个数定义为[math]k[/math](含代替面),又设[math]l\left(l\le n\right)[/math]为自己已有某个面的个数。[br] 虽然有不同的玩家各自摇自己的[math]n[/math]个骰子,但因为骰子是典型的独立事件,即符合[math]p\left(AB\right)=p\left(A\right)p\left(B\right)[/math]的概率计算规律。[br] 现在的问题是:当所有玩家停止摇盅后,在已知我手中有[math]l[/math]个“面”,在全部[math]m\times n[/math]个骰子中,求场面上有[math]k[/math]个“面”的概率是多少?[br][br] 【求解】[br] 设[math]p\left(l,k,m,n\right)[/math]为[math]m[/math]个人,每人手中有[math]n[/math]个骰子,则在全部[math]m\times n[/math]个骰子中,已知手中有[math]l[/math]个“面”,场面上共有[math]k[/math]个“面”的概率。求解这个问题可以演变为以下三步:[br] 1)首先,我被选中的概率设为[math]p1[/math]。[br][math]p1=\frac{1}{m}[/math][br][br] 2)其次,我手中出现[img width=10,height=18]file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml4124/wps21.png[/img]个面的概率[math]p2[/math]。[br][math]p2=\frac{2^{n-l}}{3^n}\times c_n^l[/math][br][br] 3)最后,其他人出现[math]k-1[/math]个面的概率[math]p3[/math]。[br][math]p3=\frac{2^{\left(mn-n\right)-\left(k-l\right)}}{3\left(mn-n\right)}\times C_{mn-n}^{k-l}[/math][br][br]则[math]p\left(l,k,m,n\right)=p1\times p2\times p3[/math]
【模拟计算】[br] 根据以上计算公式,编程可计算各不同参数状态下某一“面”出现次数的概率,并由此得出猜中的最优概率,提高赢面。见下表。[br][center][/center][table][tr][td]m[br]n[br][/td][td]2[br][/td][td]3[br][/td][td]4[br][/td][td]5[br][/td][/tr][tr][td]5[br][/td][td]L+1, L+2[br][/td][td]L+3[br][/td][td]L+5[br][/td][td]L+5,L+6[br][/td][/tr][tr][td]6[br][/td][td]L+2[br][/td][td]L+4[br][/td][td]L+5[br][/td][td]L+8[br][/td][/tr][tr][td]7[br][/td][td]L+2[br][/td][td]L+4[br][/td][td]L+5[br][/td][td]L+9[br][/td][/tr][tr][td]8[br][/td][td]L+2, L+3[br][/td][td]L+5[br][/td][td]L+8[br][/td][td]L+10, L+11[br][/td][/tr][tr][td]9[br][/td][td]L+3[br][/td][td]L+6[br][/td][td]L+9[br][/td][td]L+12[br][/td][/tr][tr][td]10[br][/td][td]L+3[br][/td][td]L+6, L+7[br][/td][td]L+10[br][/td][td]L+13[/td][/tr][/table][br]
以上表中[math]m[/math]只列出了2~5人,[math]n[/math]只列出了5~10个骰子,L是指自己有几个“面”,对应可查找出场面上最可能出现这一“面”的个数。比如一局中共有2人,每人有6个骰子,自己的某一“面”有3个,则全部骰子最可能出现这一骰面的总数是L+2=5个。如下图所示:[br][center][img]https://www.freeimg.cn/i/2024/04/23/6627198053df7.png[/img][/center]
【人机对战】[br] 根据最优概率的计算,结合对对手叫牌行为的分析,设计了“吹牛”小游戏,界面如下:[br][center][img]https://www.freeimg.cn/i/2024/04/23/66271d9ee1f80.png[/img][/center]
同学们可以通过扫描右边的二维码下载程序,通过改变参数查看各种条件下的最优概率计算及趋势图,也可开启人机对战,验证最优概率的赢面。[br][center][img]https://www.freeimg.cn/i/2024/04/23/66271e0582211.png[/img][/center]
【机器出牌的策略】[br][br] 通过设置算法,电脑可以判断真实玩家的叫牌习性,从而给出较为合理的叫牌策略。电脑设置的算法分为两个要素成分,攻击度和下套度。[br] 攻击度是指电脑在真实玩家叫牌后,依据自己的骰面情况,判断其叫牌习性,主要分为三种:攻击性大、攻击性适中和攻击性小,攻击性以“-”和“+”号区分。其算法原理为:设[math]i[/math][sub][size=50]机-人[/size][/sub]为电脑所拥有的玩家所叫骰面的个数,[math]l[/math][sub][size=50]机-人[/size][/sub]为真实玩家所叫牌的骰面个数,以电脑所持有的骰面数所计算出的场面上出现概率最大的某一“面”个数,[math]P\left(i_{_{机-人}}\right)[/math]为电脑根据自已的骰面数,以真实玩家给出的某一“面”的叫牌数所计算的骰面概率,[math]A_i[/math][sub][size=50]机-人[/size][/sub]为攻击度,其计算公式为:[br][br] [math]A_i[/math][size=50][sub]机-人[/sub][size=100]=[math](l_{机-人}-i_{机-人})[/math][/size][/size]
我们设定,如果[math]-1\le A_i_{_{机-人}}\le1[/math],则玩家叫牌适中,应根据下套度再次叫牌;如果[math]A_i[/math][size=50][sub]机-人[math]<-1[/math][/sub][/size],则玩家叫牌谨慎,属于赢面非常大的叫牌方式,攻击性强,电脑不能开牌,应根据下套度再次叫牌;如果 [math]A_i[/math][size=50][sub]机-人[math]>1[/math][/sub][/size],则玩家叫牌豪放,应根据设定的阈值进行操作,如果超过阈值太多,则直接开牌。攻击性的三种状态可由下图表示:
[center][img]https://www.freeimg.cn/i/2024/04/23/66273c3544a13.png[/img][/center]
下套度是指电脑在真实玩家开牌后,依据各次叫牌状态对真实骰面所做的评估,以推断玩家的在叫牌时是否下套操作的幅度有多大。[br][br] 所谓下套度的数学表达应该是,玩家的最多骰面(设为[math]k_{max}[/math])的个数设为[math]j_{max}[/math],将真实玩家对某一“面”(设为[math]k_人[/math])的叫牌数设为[math]j_人[/math],而真实拥有的个数设为[math]j_{_真}[/math],将一局叫牌次数设为[math]s[/math]。则[math]j_{_人}-j_{_真}[/math]代表了叫牌的谨慎或豪放的程度,如果[math]j_{_人}-j_{_真}<0[/math],则叫牌谨慎,同理,如果[math]j_{_人}-j_{_真}>0[/math],则叫牌豪放。而[math]\mid k_{max}-k_人\mid[/math]代表叫牌时故意不从最多骰面叫起的幅度,而下套度主要是由这两个元素决定的。[br] [br] [color=#0000ff]则下套度(Cunning Indicator)[/color][math]CI_人=\frac{\sum\left(\left(j^s_人-j^s_真\right)\times\mid k_{max}^s-k_人^s\mid\right)}{s}[/math],其标志性指标为0,即[math]CI=0[/math],表示玩家诚实;如果[math]CI<0[/math],表示玩家有下套,值越小套下的越深;如果[math]CI>0[/math],也表示玩家在诈牌,值越大诈的越不理智。电脑也可通过分别记录这两个元素的数值来判断具体的个数差,即[math]CI_人=(\left(j^s_人-j^s_真\right),\mid k_{max}^s-k_人^s\mid)[/math]。
【小思考:人工智能可以完成高复杂度的计算,但是离“算计”还有多远?】[br] 这个问题,可以留给读者思考,或许可以拓展新的人工智能领域。

Information: 三、 常见的连续型随机变量的分布