贝叶斯分类器实例,贝叶斯
1.贝叶斯决策论
贝叶斯分类器是分类算法的总称,贝叶斯定理是该类算法的核心,故统称贝叶斯分类。 贝叶斯决定论在3358www.Sina.com/的情况下利用相关概率已知来选择最佳的类别分类。
“风险”(误判损失)=将原本为cj的样本错误分类为ci所导致的期待损失,期待损失可以通过下式计算。
为了将整体风险最小化,选择能够在各样本中将条件风险r(c|x )最小化的类别标记即可。 最小化分类错误率的贝叶斯最优分类器如下。
也就是说,针对每个样本x,选择后验概率p(c|x )为最大的类别标记。
采用贝叶斯判决准则将决策风险最小化,首先需要获得后验概率p(c|x ),机器学习实现在有限的训练样本集的基础上尽可能准确地估计后验概率p(c|x )。 主要有两种模型。 一个是“判别式模型”。 通过直接建模p(c|x )进行预测。 其中决策树、BP神经网络、支持向量机均为判别式模型。 另一个是“生成模型”。 对联合概率模型p(x,c )进行建模,得到p(c|x )。 对于生成模型:
基于贝叶斯定理,可以写成以下的式(1)
易懂的理解:
p(c )是类别“先验”概率,p (x|c )是样本x相对于类别标记c的类别条件概率或似然性。 p(x )是用于归一化的“证据”因子,对于给定的样本x,证据因子p(x )与类标记无关。 于是,推定p(c|x )的问题根据训练数据推定p ) c )和p ) x|c ),对条件概率p(x|c )来说,关系到x的所有属性的联合概率。
误判损失
p(x|c ) )具有确定的形状,假设由参数向量唯一确定,我们的任务是使用训练集推定参数c,将p(x|c )表示为p ) x|c )。 假设Dc表示训练集d类c的样本的集合,且样本独立地同分布,则参数c相对于数据集Dc的似然
似然极大的估计是寻找使p(DC|c )最大化的参数值。 直观地,最大似然估计试图在c的所有可能值中找到使数据出现的“可能性”最大化的值。
上式的联合操作容易引起下溢,通常使用对数似然:
此时参数c的似然度
在连续属性的情况下,假设概率密度函数,则参数和的似然度推定如下。
也就是说,通过极大似然法得到的正态分布均值是样本均值,方差是的均值,离散的情况下也可以用同样的方法估计类条件概率。
Note:这种参数化方法可以使类条件的概率估计相对简单,但估计结果的准确性在很大程度上取决于假设的概率分布形式是否符合潜在的真实数据分布。
2.极大似然估计
基于贝叶斯公式(1)估计后验概率p(c|x )的主要困难在于条件概率p(x|c )是所有属性上的联合概率,难以从有限的训练样本直接估计。 安奈可通过采用“属性条件独立性假说”来避免这个问题。 这意味着假设所有属性都是相互独立的,换句话说,假设每个属性都独立地影响分类结果。
基于属性条件独立性的假设,公式(1)可以改写为:
其中,d为属性数,xi为x的第I个属性的可取值。
由于对所有的类别p(x )都是相同的,所以基于)式的贝叶斯判定标准如下
这就是朴素贝叶斯分类器的公式。
显然,朴素贝叶斯分类器的训练过程是基于训练集d估计类先验概率p[c],并针对每个属性估计条件概率。
当Dc表示由训练集d类c的样本组成的集合时,只要有足够多的独立同分布的样本,就可以容易地估计类先验概率
离散属性的情况下,如果Dc,xi表示由在第I个属性中取值xi的样本组成的集合,则条件概率被推定如下
连续属性可以认为是概率密度函数,假设类样本在第I个属性中取值的平均值和方差,则为。
3.朴素贝叶斯分类器
已知数据集如下表所示。
n="left">对下表示例进行预测:
5.半朴素贝叶斯分类器
为了降低贝叶斯公式2中后验概率p(c|x)的困难,朴素贝叶斯采用了属性条件独立性假设,但在现实中这个假设很难成立,由此产生了半朴素贝叶斯分类器的学习方法。优美的火车,这种方法是适当考虑一部分属性间的相互依赖信息,不需要进行完全联合概率计算,也不至于彻底忽略比较强的属性依赖关系。“独依赖估计”(One-Dependent Estimator,简称ODE)是半朴素贝叶斯分类器最常用的一种策略,就是假设每个属性在类别之外最多依赖于一个其他属性,即
其中,为属性xi所依赖的属性,称为xi的父属性。此时,对每个属性xi,若其父属性已知,可采用7式来估算概率值。现在问题转换为如何确定每个属性的父属性。
(b)假设所有属性都依赖于同一个属性,称为“超父”(super-parent),然后通过交叉验证等模型选择方法来确定超父属性,由此形成SPODE方法,这里x1是超父属性。
(c)TAN(treeaugmented naive bayes)是在最大带权生成树算法的基础上,通过以下步骤生成图c所示的树形结构:
l 计算任意属性之间的条件互信息(conditional mutual information)
l 以属性为结点构建完全图,任意两个结点之间边的权重设为I(xi,xj|y);
l 构建此完全图的最大带权生成树,挑选根变量,将边置为有向;
l 加入类别结点y,增加从y到每个属性的有向边。
可以看出,条件互信息I(xi,xj|y)刻画了属性xi和xj在已知类别下的相关性,通过最大生成树算法,TAN实际保留了强相关属性之间的依赖性。
AODE(averagedone-dependent estimator)是一种基于集成学习机制、更为强大的度依赖分类器。与SPODE通过模型选择超父属性不同,AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支持的SPODE集成起来作为最终结果,即
与朴素贝叶斯分类器相似,AODE的训练过程也是“计数”,即在训练集上对符合条件的样本继续计数。
6.贝叶斯网(bayesiannetwork)
也称为信念网(belief network),它借助有向无环图(DirectedAcyclic Graph 简称DAG)来刻画属性之间的依赖关系,并使用条件概率表(conditional Probability table 简称CPT)来描述属性的联合概率分布。
下面用一个栗子说明:
从图中网络结构可看出,“色泽”直接依赖于“好瓜”和“甜度”,而“根蒂”则直接依赖于“甜度”;进一步从条件概率表能得到“根蒂”对“甜度”量化依赖关系,如P(根蒂=硬挺|甜度=高)=0.1
贝叶斯网结构有效地表达了属性空间的条件独立性。给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,于是B=<G, θ>将属性x1,x2,...,xd的联合概率分布定义为:
以上面网络结构例子,联合概率分布定义为
在在给定的取值时独立,在给定的取值时独立。
上面的贝叶斯网中三个变量之间的典型依赖关系如下:
小结:
对于较为复杂的 DAG 图,我们可以给出一个普遍意义上的结论 ,也就是 D-Seperation。如果A,B,C是三个集合(可以是单独的节点或者是节点的集合),为了判断 A 和 B 是否是 C 条件独立的P(A,B|C), 我们考虑所有 A 和 B 之间的 无向路径 。对于其中的一条路径,如果满足以下两个条件中的任意一条,则称这条路径是 阻塞(block) 的,即A,B是独立的:
(a)如果在路径中,存在某个节点 X 是 head-to-tial 或者 tail-to-tail 节点,并且 X 是包含在 C集合 中;
(b)如果在路径中,存在某个节点 X 是 head-to-head 节点(Example Three),并且 X 或 X 的儿子结点是不包含在 C 集合中; ----所有的路径被阻塞,则A,B相互独立
如果 A,B 间所有的路径都是阻塞的,那么 A,B 就是关于 C 条件独立的;否则, A,B 不是关于 C 条件独立的。
小栗子:
由D-Sepration分隔定理,判断:
a与b在c条件下的独立性?
判断a与b在f条件下的独立性?
小练习:判断是否成立?
C--->D的所有路径:C-->E-->D,分析,结点E为head-to-head,结点E和E的子结点F中,结点F包含在F集合中,所以结点E不阻断,即在F条件下,C和D不相互独立。