dySE:一个Java搜索引擎的实现,第2部分 网页预处理
dySE:一个Java搜索引擎的实现,第2部分 网页预处理2010-11-20 IBM 董宇在 上一部分 中,您了解到如何编写一个 spider 程序来进行网页的爬取, 作为 spider 的爬取结果,我们获得了一个按照一定格式存储的原始网页库,原 始网页库也是我们第二部分网页预处理的数据基础。网页预处理的主要目标是将 原始网页通过一步步的数据处理变成可方便搜索的数据形式。下面就让我们逐步 介绍网页预处理的设计和实现。预处理模块的整体结构预处理模块的整体结...