数据挖掘系列(3)关联规则评价2014-04-22前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它 是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易 数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包含游戏 光碟又包含影片光碟。数据集如下表所示:

假设我们设置得最小支持度为30%,最小自信度为60%。从上面的表中,可以得到:support(买游戏 光碟—>买影片光碟)=4000/10000=40%,confidence(买游戏光碟—>买影片光碟) =4000/7500*100%=66%。这条规则的支持度和自信度都满足要求,因此我们很兴奋,我们找到了一条强 规则,于是我们建议超市把影片光碟和游戏光碟放在一起,可以提高销量。可是我们想想,一个喜欢的玩游戏的人会有时间看影片么,这个规则是不是有问题,事实上这条规 则误导了我们。在整个数据集中买影片光碟的概率p(买影片)=7500/10000=75%,而买游戏的人也买影 片的概率只有66%,66%<75%恰恰说明了买游戏光碟抑制了影片光碟的购买,也就是说买了游戏光碟 的人更倾向于不买影片光碟,这才是符合现实的。从上面的例子我们看到,支持度和自信度并不能过成功滤掉那些我们不感兴趣的规则,因此我们需 要一些新的评价标准,下面介绍六中评价标准:相关性系数,卡方指数,全自信度、最大自信度、 Kulc、cosine距离。相关性系数lift从上面游戏和影片的例子中,我们可以看到游戏和影片不是正相关的,因此用相关性度量关联规则 可以过滤这样的规则,对于规则A—>B或者B—>A,lift(A,B)=P(A交B)/(P(A)*P(B)) ,如果lift(A,B)>1表示A、B呈正相关,lift(A,B)<1表示A、B呈负相关,lift(A,B)=1表示 A、B不相关(独立)。实际运用中,正相关和负相关都是我们需要关注的,而独立往往是我们不需要 的,两个商品都没有相互影响也就是不是强规则,lift(A,B)等于1的情形也很少,一般只要接近于1我 们就认为是独立了。注意相关系数只能确定相关性,相关不是因果,所以A—>B或者B—>A两个规则的 相关系数是一样的,另外lift(A,B)=P(A交B)/(P(A)*P(B))=P(A)*P(B|A)/(P(A)*P(B))=P(B|A)/P(B) =confidence(A—>B)/support(B)=confidence(B—>A)/support(A)。卡方系数

卡方分布是数理统计中的一个重要分布,利用卡方系数我们可以确定两个变量是否相关。卡方系数 的定义:

公式中的observed表示数据的实际值,expected表示期望值,不理解没关系,我们看一个例子就明白 了。

上面表格的括号中表示的是期望值,(买影片,买游戏)的期望值E=6000*(7500/10000)=4500,总体 记录中有75%的人买影片,而买游戏的有6000人,于是我们期望这6000人中有75%(即4500)的人买影片 。其他三个值可以类似计算得到。现在我们计算一下,买游戏与买影片的卡方系数:卡方系数X=(4000-4500)^2/4500+(3500-3000)^2/3000+(2000-1500)^2/1500+(500-1000) ^2/1000=555.6。卡方系数需要查表才能确定值的意义,基于置信水平和自由度(r-1)*(c-1)=(行数-1)*(列数-1)=1 ,查表得到自信度为(1-0.001)的值为6.63,555.6大于6.63,因此拒绝A、B独立的假设,即认为A、B 是相关的,而expected(买影片,买游戏)=4500>4000,因此认为A、B呈负相关。这里需要一定的概 率统计知识。如果觉得不好理解,可以用其他的评价标准。