新用户注册入口 老用户登录入口

[转载]数学与编程——概率论与数理统计

文章作者:转载 更新时间:2024-02-26 12:45:04 阅读数量:516
文章标签:数理统计共轭先验条件概率贝叶斯公式Beta分布伯努利分布
本文摘要:这篇文章介绍了数理统计中的几个核心概念,包括随机变量的期望差距平方(D(x))、概率质量函数(PMF)与概率密度函数(PDF)的区别以及它们在离散和连续型随机变量上的应用。文章详细阐述了共轭先验的概念及其在贝叶斯推断中的作用,并通过最大似然估计(MLE)方法展示了如何利用伯努利分布的例子求解参数。此外,还讨论了条件概率和贝叶斯公式之间的联系,以及Beta分布作为共轭先验在实际问题中的应用。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/lanchunhui/article/details/49799405。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

  • D(x)=E{[xE(x)]2} :相对于平均数差距的平方的期望;
  • 数理统计一词的理解:mathematical stats,也即用数学的观点审视统计,为什么没有数理概率,因为概率本身即为数学,而对于统计,random variable 的性质并不全然了解,所以数理统计在一些书里又被称作:stats in inference(统计推论,已知 ⇒ 未知)
    • 概率与统计的中心问题,都是random variable,

PMF与PDF

PMF:probability mass function,概率质量函数,是离散型随机变量在各特定取值上的概率。与概率密度函数(PDF:probability density function)的不同之处在于:概率质量函数是对离散型随机变量定义的,本身代表该值的概率;概率密度函数是针对连续型随机变量定义的,本身不是概率(连续型随机变量单点测度为0),只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。

notation

假设X 是一个定义在可数样本空间S 上的离散型随机变量SR ,则其概率质量函数PMF为:

fX(x)={Pr(X=x),0,xSxRS

注意这在所有实数上,包括那些X 不可能等于的实数值上,都定义了pmf,只不过在这些X 不可能取的实数值上,fX(x) 取值为0(xRS,Pr(X=x)=0 )。

离散型随机变量概率质量函数(pmf)的不连续性决定了其累积分布函数(cdf)也不连续。

共轭先验(conjugate prior)

所谓共轭(conjugate),描述刻画的是两者之间的关系,单独的事物不构成共轭,举个通俗的例子,兄弟这一概念,只能是两者才能构成兄弟。所以,我们讲这两个人是兄弟关系,A是B的兄弟这两个分布成共轭分布关系,A是B的共轭分布

p(θ|X)=p(θ)p(X|θ)p(x)

  • p(X|θ) :似然(likelihood)

  • p(θ) :先验(prior)

  • p(X) :归一化常数(normalizing constant)

我们定义:如果先验分布(p(θ) )和似然函数(p(X|θ) )可以使得先验分布(p(θ) )和后验分布(p(θ|X) )有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那么就称先验分布与似然函数是共轭的(成Beta分布与二项分布是共轭的)。

几个常见的先验分布与其共轭分布

先验分布 共轭分布
伯努利分布 beta distribution
Multinomial Dirichlet Distribution
Gaussian, Given variance, mean unknown Gaussian Distribution
Gaussian, Given mean, variance unknown Gamma Distribution
Gaussian, both mean and variance unknown Gaussian-Gamma Distribution

最大似然估计(MLE)

首先来看,大名鼎鼎的贝叶斯公式

p(θ|X)=p(θ)p(X|θ)p(X)

可将θ 看成欲估计的分布的参数,X 表示样本,p(X|θ) 则表示似然。

现给定样本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,,xN} ,似然函数为:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

p(D|θ)=n=1Np(xn|θ)

为便于计算,再将其转换为对数似然函数形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)
lnp(D|θ)=n=1Nlnp(xn|θ)

我们不妨以伯努利分布为例,利用最大似然估计的方式计算其分布的参数(pp ),伯努利分布其概率密度函数(pdf)为:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

fX(x)=px(1p)1x=p,q1p,0,x=1,x=0,otherwise

整个样本集的对数似然函数为:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

lnp(D|θ)=n=1Nlnp(xn|θ)=n=1Nln(θxn(1θ)1xn)=n=1Nxnlnθ+(1xn)ln(1θ)

等式两边对\thetaθ 求导:
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

ln(D|θ)θ=Nn=1xnθN1θ+Nn=1xn1θ

令其为0,得:

θml=Nn=1xnN

Beta分布

f(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1=1B(a,b)μa1(1μ)b1

Beta 分布的峰值在a1b+a2 处取得。其中Γ(x)0ux1eudu 有如下性质:

Γ(x+1)=xΓ(x)Γ(1)=1andΓ(n+1)=n!

我们来看当先验分布为 Beta 分布时的后验分布:
p(θ)=1B(a,b)θa1(1θ)b1p(X|θ)=(nk)θk(1θ)nkp(θ|X)=1B(a+k,b+nk)θa+k1(1θ)b+nk1

对应于python中的math.gamma()及matlab中的gamma()函数(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b))。

条件概率(conditional probability)

P(X|Y)

读作: P of X given Y ,下划线读作given
X :所关心事件
Y :条件(观察到的,已发生的事件),conditional

条件概率的计算

仍然从样本空间(sample space)的角度出发。此时我们需要定义新的样本空间(给定条件之下的样本空间)。所以,所谓条件(conditional),本质是对样本空间的进一步收缩,或者叫求其子空间。

比如一个人答题,有A,B,C,D 四个选项,在答题者对题目一无所知的情况下,他答对的概率自然就是 14 ,而是如果具备一定的知识,排除了 A,C 两个错误选项,此时他答对的概率简单计算就增加到了 12

本质是样本空间从S={A,B,C,D} ,变为了S={B,D}
新样本空间下P(A|A/C)=0,P(C|A/C)=0 ,归纳出来,也即某实验结果(outcome,oi )与某条件Y 不相交,则:

P(oi|Y)=0

最后我们得到条件概率的计算公式:

P(oi|Y)=P(oi)P(o1)+P(o2)++P(on)=P(oi)P(Y)Y={o1,o2,,on}

考虑某事件X={o1,o2,q1,q2} ,已知条件Y={o1,o2,o3} 发生了,则:

P(X|Y)=P(o1|Y)+P(o2|Y)+0+0=P(o1)P(Y)+P(o2)P(Y)=P(XY)P(Y)

条件概率与贝叶斯公式

条件概率:

P(X|Y)=P(XY)P(Y)

贝叶斯公式:

P(X|Y)=P(X)P(Y|X)P(Y)

其实是可从条件概率推导贝叶斯公式的:

P(A|B)=P(B|A)=P(A|B)P(B)===P(B|A)=P(AB)P(B)P(AB)P(A)P(AB)P(B)P(B)P(AB)P(A)P(B|A)P(A|B)P(B)P(A)

证明:P(B,p|D)=P(B|p,D)P(p|D)

P(B,p|D)====P(B,p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p|D)

References

[1] 概率质量函数

本篇文章为转载内容。原文链接:https://blog.csdn.net/lanchunhui/article/details/49799405。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
数理统计(Mathematical Statistics)数理统计是一门运用数学理论和方法研究随机现象的统计规律性的学科,它通过收集、分析数据来推断总体参数、预测未知信息,并对不确定性进行量化评估。在文章中,数理统计被定义为一种利用数学工具探讨随机变量性质以及如何基于已知数据进行统计推断的方法。
共轭先验(Conjugate Prior)在概率论与统计学中,共轭先验是指在贝叶斯推断框架下,某一类先验分布与某一类似然函数组合后,形成的后验分布仍属于同一类分布的情况。这意味着,在进行参数估计时,如果选择了一种与似然函数共轭的先验分布,则可以通过解析形式直接得到后验分布,简化了计算过程。例如,在文章中提到Beta分布作为伯努利分布的共轭先验,意味着给定伯努利分布的数据后,使用Beta分布作为先验时,可以得到同样为Beta分布的后验分布。
最大似然估计(Maximum Likelihood Estimation, MLE)最大似然估计是一种参数估计方法,其核心思想是根据观测到的数据集,找到使得该数据出现概率最大的模型参数值。在实际应用中,通过构建似然函数并最大化该函数,从而确定参数的最佳估计值。文章中详细描述了如何使用最大似然估计来求解伯努利分布中的参数p,即通过计算样本集中所有观测结果对应概率乘积的最大化,得出参数p的最可能取值。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
在深入理解数理统计与概率论的基本概念后,进一步探索这些理论在实际应用中的最新动态和研究进展至关重要。近日,《Nature》杂志发表了一项关于利用贝叶斯推断和共轭先验进行复杂疾病风险评估的研究(引用时效性)。科研团队借助最大似然估计方法,成功地从大规模基因数据集中挖掘出与特定疾病关联的遗传变异位点,并通过选取合适的共轭先验分布,如Dirichlet-Multinomial模型,对患者群体的风险概率进行了精准预测。
此外,在机器学习领域,概率密度函数和概率质量函数的应用日益广泛。《IEEE Transactions on Pattern Analysis and Machine Intelligence》上的一篇论文报道了如何将连续型随机变量的概率密度函数应用于深度生成模型,以实现更高质量的数据生成和更准确的不确定性量化(引用时效性和针对性)。
同时,条件概率和贝叶斯公式在大数据分析和人工智能决策过程中发挥着关键作用。例如,Google最近的一项研究成果展示了如何结合条件概率和贝叶斯网络构建强大的推荐系统,能够实时更新用户兴趣偏好,提供个性化服务(时效性和针对性)。
总的来说,随着科技的发展,数理统计与概率论在解决实际问题时展现出越来越强的生命力,不仅在基础科学研究中扮演核心角色,也在诸多前沿技术领域,如生物信息学、机器学习、以及互联网服务等领域提供了坚实的理论支撑。读者可以进一步关注相关领域的学术期刊、会议论文及业界报告,以及时获取最新的理论突破与实践成果。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
netstat -tulpn - 查看网络连接状态、监听的TCP/UDP端口及其对应进程信息。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
js实用表单模糊搜索和自动提示插件 10-05 简单的jQuery响应式手风琴特效 01-27 发布站点前如何为站点质量做进一步优化,几个不能不知道的小工具 01-26 HessianRPC中IllegalArgumentException异常解析:方法签名与参数类型匹配在分布式系统中的实践误区与解决方案 01-16 AI助手的工作原理与限制:无法按特定要求撰写的原因及信息处理分析 12-27 Gallerybox-全屏响应式jQuery图片画廊插件 12-17 关于金融理财公司网站模板下载 11-01 SparkContext停止与未初始化错误排查:从初始化到集群通信与生命周期管理实践 09-22 jQuery和CSS3超酷3D拉窗帘式滚动导航特效 09-02 本次刷新还10个文章未展示,点击 更多查看。
简约蓝色农村电线线路安装网站模板 08-01 Tomcat性能瓶颈问题识别与解决:利用VisualVM和JProfiler分析工具进行代码优化与系统参数调整 07-31 图文经典商务外贸求职招聘企业网站模板 07-14 SeaTunnel中创建与应用自定义Transform插件:实现数据转换与业务逻辑处理,配置文件参数设置及插件打包发布 07-07 响应式精密光学仪器设备类企业前端CMS模板下载 06-12 vue口诀 04-23 宽屏蓝色海洋主题设计网站模板 04-21 美食自媒体博客类网页模板源码 04-14 公式计算 html 代码 04-01 [转载]C/C++劫持技术(函数劫持、dll注入、动态库注入、HOOK) 01-23 jQuery高仿真移动手机滑动侧边栏布局插件 01-21
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"