机器学习基础(三)朴素贝叶斯2013-11-14 csdn博客 cuoqu贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可 以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes"Theorem in the 21st Century”和 “A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”。俺就不参合这事了,下面来看看朴素贝叶 斯分类器。有时我们想知道给定一个样本时,它属于每个类别的概率是多少,即P(Ci|X),Ci表示类别 ,X表示测试样本,有了概率后我们可以选择最大的概率的类别。要求这个概率要用经典贝叶斯公式,如(公 式一)所示:

(公式一)(公式一 )中的右边每项一般都是可以计算出的,例如(图一)中两个桶中分别装了黑色(Black)和灰色(Grey)的球 。

(图一)假设Bucket A 和BucketB是类别,C1和C2,当给定一个球时,我们想判断它最可能从哪个桶里出来的,换句话说是什么类别 ?这就可以根据(公式一)来算,(公式一)的右边部分的每项都可以计算出来,比如P(gray|bucketA)=2/4 ,P(gray|bucketB)=1/3,更严格的计算方法是:P(gray|bucketB) = P(gray andbucketB)/P (bucketB),而P(gray and bucketB) = 1/7,P(bucketB)= 3/7那么P(gray|bucketB)=P(gray and bucketB)/ P(bucketB)=(1/7)/(3/7)=1/3这就是朴素贝叶斯的原理,根据后验概率来判断,选择 P(Ci|X)最大的作为X的类别Ci,另外朴素贝叶斯只所以被称为朴素的原因是,它假设了特征之间都是独立的, 如(图二)所示:

(图二)尽管这个假设 很不严密,但是在实际应用中它仍然很有效果,比如文本分类,下面就来看下文本分类实战,判断聊天信息是 否是辱骂(abusive)信息(也就是类别为两类,是否辱骂信息),在此之前,先强调下,朴素贝叶斯的特征向 量可以是多维的,上面的公式是一维的,二维的如(公式二)所示,都是相同的计算方法:

( 公式二)