数据结构，算法，编程数据结构，编程算法-易库教程

TF-IDF与余弦相似性的应用（三）自动摘要

2017年02月05日 108 阅读

TF-IDF与余弦相似性的应用（三）自动摘要2014-10-19 阮一峰有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。如果能从3000字的文章，提炼出150字的摘要，就可以为读者节省大量阅读时间。由人完成的摘...

贝叶斯推断及其互联网应用（一）定理简介

2017年02月05日 114 阅读

贝叶斯推断及其互联网应用（一）定理简介2014-10-19 阮一峰一年前的这个时候，我正在翻译Paul Graham的《黑客与画家》。那本书的第八章，写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件（英文版）。我没完全看懂那一章。当时是硬着头皮，按照字面意思把它译出来的。虽然译文质量还可以，但是心里很不舒服，下决心一定要搞懂它。一年过去了，我读了一些概率论文献，逐渐发现贝叶斯推断并不难。原理的部分相当容易理解，不需要用到高等数学。下面就是...

贝叶斯推断及其互联网应用（二）过滤垃圾邮件

2017年02月05日 114 阅读

贝叶斯推断及其互联网应用（二）过滤垃圾邮件2014-10-20 阮一峰上一次，我介绍了贝叶斯推断的原理，今天讲如何将它用于垃圾邮件过滤。========================================贝叶斯推断及其互联网应用作者：阮一峰（接上文）七、什么是贝叶斯过滤器？垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法...

贝叶斯推断及其互联网应用（三）拼写检查

2017年02月05日 109 阅读

贝叶斯推断及其互联网应用（三）拼写检查2014-10-20 阮一峰（这个系列的第一部分介绍了贝叶斯定理，第二部分介绍了如何过滤垃圾邮件，今天是第三部分。）使用Google的时候，如果你拼错一个单词，它会提醒你正确的拼法。比如，你不小心输入了seperate。Google告诉你，这个词是不存在的，正确的拼法是separate。这就叫做"拼写检查"（spelling corrector）。有好几种方法可以实现这个功能，Google使用的是...

基于用户投票的排名算法（一）Delicious和Hacker News

2017年02月05日 112 阅读

基于用户投票的排名算法（一）Delicious和Hacker News2014-10-20 阮一峰互联网的出现，意味着"信息大爆炸"。用户担心的，不再是信息太少，而是信息太多。如何从大量信息之中，快速有效地找出最重要的内容，成了互联网的一大核心问题。各种各样的排名算法，是目前过滤信息的主要手段之一。对信息进行排名，意味着将信息按照重要性依次排列，并且及时进行更新。排列的依据，可以基于信息本身的特征，也可以基于用户的投票，即让用户决定，...

基于用户投票的排名算法（二）Reddit

2017年02月05日 119 阅读

基于用户投票的排名算法（二）Reddit2014-10-20 阮一峰上一次，我介绍了Hacker News的排名算法。它的特点是用户只能投赞成票，但是很多网站还允许用户投反对票。就是说，除了好评以外，你还可以给某篇文章差评。Reddit是美国最大的网上社区，它的每个帖子前面都有向上和向下的箭头，分别表示"赞成"和"反对"。用户点击进行投票，Reddit根据投票结果，计算出最新的"热点文章排行榜"...

基于用户投票的排名算法（三）Stack Overflow

2017年02月05日 117 阅读

基于用户投票的排名算法（三）Stack Overflow2014-10-20 阮一峰上一篇文章，我介绍了Reddit的排名算法。它的特点是，用户可以投赞成票，也可以投反对票。也就是说，除了时间因素以外，只要考虑两个变量就够了。但是，还有一些特定用途的网站，必须考虑更多的因素。世界排名第一的程序员问答社区Stack Overflow，就是这样一个网站。你在上面提出各种关于编程的问题，等待别人回答。访问者可以对你的问题进行投票（赞成票或反对票），表示这个问题...

基于用户投票的排名算法（四）牛顿冷却定律

2017年02月05日 118 阅读

基于用户投票的排名算法（四）牛顿冷却定律2014-10-20 阮一峰这个系列的前三篇，介绍了Hacker News，Reddit和Stack Overflow的排名算法。今天，讨论一个更一般的数学模型。这个系列的每篇文章，都是可以分开读的。但是，为了保证所有人都在同一页上，我再说一下，到目前为止，我们用不同方法，企图解决的都是同一个问题：根据用户的投票，决定最近一段时间内的"热文排名"。你可能会觉得，这是一个全新的课题，伴随着互联网而...

基于用户投票的排名算法（五）威尔逊区间

2017年02月05日 119 阅读

基于用户投票的排名算法（五）威尔逊区间2014-10-21 阮一峰迄今为止，这个系列都在讨论，如何给出"某个时段"的排名，比如"过去24小时最热门的文章"。但是，很多场合需要的是"所有时段"的排名，比如"最受用户好评的产品"。这时，时间因素就不需要考虑了。这个系列的最后两篇，就研究不考虑时间因素的情况下，如何给出排名。一种常见的错误算法是：得分 = 赞成票 - 反对票假定有两...

基于用户投票的排名算法（六）贝叶斯平均

2017年02月05日 125 阅读

基于用户投票的排名算法（六）贝叶斯平均2014-10-21 阮一峰上一篇介绍了"威尔逊区间"，它解决了投票人数过少、导致结果不可信的问题。举例来说，如果只有2个人投票，"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性，但也带来了另一个问题：排行榜前列总是那些票数最多的项目，新项目或者冷门的项目，很难有出头机会，排名可能会长期靠后。以IMDB为例，它是世界最大的电影数据库，观众可以对每部电...

高斯模糊的算法

2017年02月05日 115 阅读

高斯模糊的算法2014-10-24 阮一峰通常，图像处理软件会提供"模糊"（blur）滤镜，使图片产生模糊的效果。"模糊"的算法有很多种，其中有一种叫做"高斯模糊"（Gaussian Blur）。它将正态分布（又名"高斯分布"）用于图像处理。本文介绍"高斯模糊"的算法，你会看到这是一个非常简单易懂的算法。本质上，它是一种数据平滑技术（data smooth...

UVa 10369：Arctic Network（求最小生成树的第k小边）

2017年02月05日 115 阅读

UVa 10369：Arctic Network（求最小生成树的第k小边）2014-10-24 csdn博客 shuangde800链接：http://uva.onlinejudge.org/index.php？option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=1310题目：Problem C: Arctic NetworkThe De...

UVa 10397：Connect the Campus （最小生成树）

2017年02月05日 124 阅读

UVa 10397：Connect the Campus （最小生成树）2014-10-24 shuangde800 链接：http://uva.onlinejudge.org/index.php？option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=1338题目：Problem EConnect the CampusInput: stan...

UVa 10034：Freckles （最小生成树模板题）

2017年02月05日 126 阅读

UVa 10034：Freckles （最小生成树模板题）2014-10-24 csdn博客 shuangde800链接：http://uva.onlinejudge.org/index.php？option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=975题目：Problem A: FrecklesIn an episode of the ...

uva 10688：The Poor Giant（区间dp）

2017年02月05日 118 阅读

uva 10688：The Poor Giant（区间dp）2014-10-24 shuangde800 题目链接： uva-10688http://uva.onlinejudge.org/index.php？option=com_onlinejudge&Itemid=8&category=514&page=show_problem&problem=1629题意有n个苹果，和一个数k，第i个苹果的重量是k+i（1<=i<=n）. 已知其中只有一...

HDU 3926：Hand in Hand（同构图）

2017年02月05日 123 阅读

HDU 3926：Hand in Hand（同构图）2014-10-25 csdn博客 shuangde800链接：http://acm.hdu.edu.cn/showproblem.php？pid=3926原题：Hand in HandTime Limit: 2000/1000 MS （Java/Others） Memory Limit: 122768/62768 K （Java/Others）Total Submission（s）: 731 Acc...

HDU 3461：Code Lock（并查集+二分求幂）

2017年02月05日 118 阅读

HDU 3461：Code Lock（并查集+二分求幂）2014-10-25 shuangde800 链接：http://acm.hdu.edu.cn/showproblem.php？pid=3461原题：Problem DescriptionA lock you use has a code system to be opened instead of a key. The lock contains a sequence of wheels. Each...

HDU 2473 Junk-Mail Filter 【并查集+设立虚父节点（马甲）】

2017年02月05日 123 阅读

HDU 2473 Junk-Mail Filter 【并查集+设立虚父节点（马甲）】2014-10-25 csdn博客 shuangde800题目链接：http://acm.hdu.edu.cn/showproblem.php？pid=2473原题：Problem DescriptionRecognizing junk mails is a tough task. The method used here consists of two steps:1） ...

HDU 3367 Pseudoforest （伪森林）

2017年02月05日 117 阅读

HDU 3367 Pseudoforest （伪森林）2014-10-25 shuangde800 链接：http://acm.hdu.edu.cn/showproblem.php？pid=3367题目：Problem DescriptionIn graph theory, a pseudoforest is an undirected graph in which every connected component has at most one cyc...

HDU 2489 Minimal Ratio Tree （DFS枚举+最小生成树Prim）

2017年02月05日 117 阅读

HDU 2489 Minimal Ratio Tree （DFS枚举+最小生成树Prim）2014-10-25 csdn博客 shuangde800链接：HDU ： http://acm.hdu.edu.cn/showproblem.php？pid=2489POJ ： http://poj.org/problem？id=3925题目：Problem DescriptionFor a tree, which nodes and edges are all w...

首页 / 软件开发 / 数据结构与算法

TF-IDF与余弦相似性的应用（三）自动摘要

贝叶斯推断及其互联网应用（一）定理简介

贝叶斯推断及其互联网应用（二）过滤垃圾邮件

贝叶斯推断及其互联网应用（三）拼写检查

基于用户投票的排名算法（一）Delicious和Hacker News

基于用户投票的排名算法（二）Reddit

基于用户投票的排名算法（三）Stack Overflow

基于用户投票的排名算法（四）牛顿冷却定律

基于用户投票的排名算法（五）威尔逊区间

基于用户投票的排名算法（六）贝叶斯平均

高斯模糊的算法

UVa 10369：Arctic Network（求最小生成树的第k小边）

UVa 10397：Connect the Campus （最小生成树）

UVa 10034：Freckles （最小生成树模板题）

uva 10688：The Poor Giant（区间dp）

HDU 3926：Hand in Hand（同构图）

HDU 3461：Code Lock（并查集+二分求幂）

HDU 2473 Junk-Mail Filter 【并查集+设立虚父节点（马甲）】

HDU 3367 Pseudoforest （伪森林）

HDU 2489 Minimal Ratio Tree （DFS枚举+最小生成树Prim）