Welcome

首页 / 软件开发 / 数据结构与算法 / 数据挖掘系列(4)使用weka做关联规则挖掘

数据挖掘系列(4)使用weka做关联规则挖掘2014-04-22 cnblogs MyDetail前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较 少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利 用数据挖掘工具weka进行管理规则挖掘。

weka数据集格式arff

arff标准数据集简介

weka的数据文件后缀为arff(Attribute-Relation File Format,即属性关系文件格式),arff文 件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属 性用@attribute什么,数据域用@data开头,看这个示例数据集(安装weka后,可在weka的安装目 录/data下找到weather.numeric.arff):

%weather dataset@relation weather@attribute outlook {sunny, overcast, rainy}@attribute temperature numeric@attribute humidity numeric@attribute windy {TRUE, FALSE}@attribute play {yes, no}@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no
当数据是数值型,在属性名的后面加numeric,如果是离散值(枚举值),就用一个大括号将值域 列出来。@data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值, 就用问号?表示。

arff稀疏数据集

我们做关联规则挖掘,比如购物篮分析,我们的购物清单数据肯定是相当稀疏的,超市的商品种类 有上10000种,而每个人买东西只会买几种商品,这样如果用矩阵形式表示数据显然浪费了很多的存储 空间,我们需要用稀疏数据表示,看我们的购物清单示例(basket.txt):

freshmeat dairy confectioneryfreshmeatconfectionerycannedvegfrozenmealbeerfishdairywinefreshmeatwinefishfruitvegsoftdrinkbeerfruitvegfrozenmealfruitvegfishfruitvegfreshmeatdairycannedvegwinefishfruitvegfishdairycannedmeatfrozenmealfish
数据集的每一行表示一个去重后的购物清单,进行关联规则挖掘时,我们可以先把商品名字映射为 id号,挖掘的过程只有id号就是了,到规则挖掘出来之后再转回商品名就是了,retail.txt是一个转 化为id号的零售数据集,数据集的前面几行如下:

123456789101112131415161718192021222324252627283132 3435 37383940414243444546 394748 394849505152535455565758 4159606162 3948 6465666768 69
这个数据集的商品有16469个,一个购物的商品数目远少于商品中数目,因此要用稀疏数据表, weka支持稀疏数据表示,但我在运用apriori算法时有问题,先看一下weka的稀疏数据要求:稀疏数据 和标准数据的其他部分都一样,唯一不同就是@data后的数据记录,示例如下(basket.arff):

@relation "basket"@attribute fruitveg {F, T}@attribute freshmeat {F, T}@attribute dairy {F, T}@attribute cannedveg {F, T}@attribute cannedmeat {F, T}@attribute frozenmeal {F, T}@attribute beer {F, T}@attribute wine {F, T}@attribute softdrink {F, T}@attribute fish {F, T}@attribute confectionery {F, T}@data{1 T, 2 T, 10 T}{1 T, 10 T}{3 T, 5 T, 6 T, 9 T}{2 T, 7 T}{1 T, 7 T, 9 T}{0 T, 8 T}{6 T}{0 T, 5 T}{0 T, 9 T}{0 T, 1 T, 2 T, 3 T, 7 T, 9 T}{0 T, 9 T}{2 T, 4 T, 5 T, 9 T}