Welcome 微信登录

首页 / 软件开发 / 数据结构与算法

海量数据处理利器之Hash:在线邮件地址过滤

海量数据处理利器之Hash:在线邮件地址过滤

海量数据处理利器之Hash:在线邮件地址过滤2014-04-22 cnblogs MyDetail标题用了了海量数据(Massive datasets)而不用大数据(Big data)。感觉大数据还是略微有点 虚,来点实际的。一、需求现在我们需要设计一个在线过滤垃圾邮件地址的方案,我们的数据库里面已经有10亿个合法的邮件 地址(称为合法地址集S),当有新的邮件发过来时,要检查这个邮件地址是不是在我们的数据库里面 ,如果在,我们接收邮件,如果不在,我们就把它...
数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法

数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法

数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法2014-04-22 cnblogs MyDetail我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。 今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本 知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》, 虽然说这个故事是哈弗商学...
数据挖掘系列(2)关联规则FpGrowth算法

数据挖掘系列(2)关联规则FpGrowth算法

数据挖掘系列(2)关联规则FpGrowth算法2014-04-22上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个 特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一 次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍 一个新的算法挖掘频繁项集,效率比Aprori算法高很多。FpGrowth算法通过构造一个树结构来压缩数据记...
数据挖掘系列(3)关联规则评价

数据挖掘系列(3)关联规则评价

数据挖掘系列(3)关联规则评价2014-04-22前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它 是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易 数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包含游戏 光碟又包含影片光碟。数据...
数据挖掘系列(4)使用weka做关联规则挖掘

数据挖掘系列(4)使用weka做关联规则挖掘

数据挖掘系列(4)使用weka做关联规则挖掘2014-04-22 cnblogs MyDetail前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较 少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利 用数据挖掘工具weka进行管理规则挖掘。weka数据集格式arffarff标准数据集简介weka的数据文件后缀为arff(Attribute-Relation File Format,...
<< 81 82 83 84 85 86 87 88 89 90 >>