贝叶斯引论(一)
[TOC]
本篇开始,逐一介绍一些概率编程相关内容。首先介绍贝叶斯网的相关基础知识和应用。
本篇导读:
本篇主要介绍了贝叶斯定理,贝叶斯网以及相关应用:
- 概率的解释
- 贝叶斯定理
- 贝叶斯网
- 贝叶斯网的构造
- 贝叶斯网的应用
- 动态贝叶斯网
概率的解释
首先介绍一下贝叶斯引论中概率的解释:
这里主要介绍主要的概率的三种解释:
古典解释:P(A) = 事件A包含的样本数/样本空间的总样本数= m/n 。 前提条件等可能性,这个条件在实际应用中很难满足,应用范围有限。
频率解释:概率近似等于频率。符合大数定律。 按照频率解释,概率只有当试验可以在同等条件下无限次重复时才有意义。然而,在实际应用中人们往往要研究一些不可能重复的事件发生的概率,例如竞选总统和体育比赛的结果。 频率解释对这些一次性事件无法处理。
主观解释:主观解释又称贝叶斯解释,它认为概率即合理信度,反映的是个体的知识状态和主观信念。在这种意义下的概率称为主观概率。
相对于频率解释,主观解释的长处是它允许对一次性事件也进行概率评估。
贝叶斯网所依赖的一个核心就是条件独立,而概率的主观解释为直观理解条件概率和条件独立提供了一个自然的角度。
贝叶斯定理
先验概率和后验概率这两个概念是相对于某组证据而言的,设H和E为两个随机变量,H=h为某一假设,E=e为一组证据。在考虑证据E=e之前,对事件H=h的概率估计P(H=h)称为先验概率。而在考虑证据之后,对H=h的概率估计P(H=h|E=e)称为后验概率。贝叶斯定理描述了先验概率和后验概率之间的关系:
$$P(H=h|E=e) = P(H=h)*P(E=e|H=h)/P(E=e)$$
这又称为贝叶斯规则,或贝叶斯公式。 在贝叶斯定理中,P(E=e|H=h)称为似然度,有时即为$L(H=h|E=e)$。 贝叶斯定理之所以有用是因为似然度往往容易获得,而后验概率则不然。
贝叶斯网
贝叶斯网是一个有向无圈图,其中节点代表随机变量,节点间的边代表变量之间的直接依赖关系,每个节点都附有一个概率分布,根节点X所附的是它的边缘分布P(X),而非根节点X所附的是条件概率分布。 贝叶斯网可以从定性和定量两个层面来理解。在定性层面,它用一个有向无圈图描述了变量之间的依赖和独立关系。在语义上,贝叶斯网是联合概率分布的分解的一种表示。
例如Alarm问题的联合概率分布,可以使用链规则和条件独立,分解成复杂度较低的概率分布乘积。
$$P(B,E,A,J,M)=P(B)P(E)P(A|B,E)P(J|A)P(M|A)$$
联合概率分布的分解降低了概率模型的复杂度。贝叶斯网的引入虽然没有进一步降低复杂度,但它为概率推理提供了很大的方便。主要是因为贝叶斯网一方面是严格的数学语言,适合计算机的处理;另一方面,它直观易懂,方便人们讨论交流和建立模型。
贝叶斯网的构造
贝叶斯网的构造方法有两种,一种是通过咨询专家手工构造,另一种是通过数据分析来获得。
实际应用中,人们往往利用因果关系来确定贝叶斯网的结构。例如Alarm问题的贝叶斯网的构造。Pearl(2000)提出概率利用因果关系来决定变量顺序。实际应用效果上,因果关系往往使得网络结构简单,概率分布易于评估。
如何来判断因果关系呢?在实际应用中,对于变量X和Y,如果知道X的状态被改变会影响你对Y的信度,而反过来Y的状态被改变并不影响你对X的信度,那么就说X是Y的原因。
贝叶斯网的应用
贝叶斯网的图论语言简单易懂,能够帮助人们理清问题的结构,同时它是严格的数学语言,可以直接用计算机来处理,这些特点使得贝叶斯网络成为许多问题的研究工具。例如贝叶斯网有以下应用:
-
医疗诊断:如疾病诊断。
-
工业应用:如故障诊断。
-
金融分析:石油价格预测,证券风险评与回报,风险投资决策。
-
计算机系统:垃圾邮件过滤,计算机系统故障诊断。
-
军事应用:战场推理,身份识别。
-
机器学习:
机器学习是人工智能的一个子领域,它研究的是怎样让计算机模拟实现人的学习行为,从经验数据出发,通过学习不断提高自己完成某种任务的能力。分类(classification)和聚类(clustering)是机器学习中的两个主要问题,分类是从一系列给定类别的数据出发,为下一个未知类别的数据归类。聚类是从一个未知类别的数据出发,分析他们可以聚成哪几个类,以及那些数据属于哪一个类。
两个常见的分类模型:
-
朴素贝叶斯模型(naive Bayes model),又称为朴素贝叶斯分类器(naive Bayes classifier),是一个包含一个根节点,多个叶节点的树状贝叶斯网。朴素贝叶斯模型包含了一个所谓的局部独立(local independence)假设,即给定类别变量C,个属性变量Ai相互条件独立。
-
TAN模型 朴素贝叶斯模型的局部独立的假设在实际应用中往往不成立,为了使模型更贴近实际,可以在各个叶节点之间加上一些必要的边,以表示各变量之间的依赖关系,这种树状结构模型就称为加树朴素贝叶斯模型(tree augmented naive Bayes model),简称TAN模型。
动态贝叶斯网
为了能够对动态随机过程进行表达和推理,人们引入了动态贝叶斯网(dynamic Bayesian networks, DBN)的概念,它又称为时变贝叶斯网(temporal Bayesian networks)。 动态贝叶斯网包含了两个假设:一是一阶马尔可夫假设,二是时齐性或者齐次性。
常见的两个动态贝叶斯网的特列为隐马尔可夫模型和卡尔曼滤波器。
隐马尔科夫模型:是一个简单的时间序列模型,它的每个时间片由一个隐状态变量Xi和一个观测变量Yi组成,它们都是离散变量。
卡尔曼滤波器(KFM),又称线性动态系统(linear dynamic system),由Kalman(1960)提出,KFM涉及一个随时间变化的连续变量x,x随时间的变化对x的观测结果y都符合线性高斯分布。
参考资料:
- 贝叶斯网引论 张连文 郭海鹏 著
- 贝叶斯统计 韦来生 编
- Practical Probabilistic Programming - Avi Pfeffer 著