ASP.NET通用采集程序GatherInfo的实现2011-11-21 博客园 张素丰这是我面试的题目,借用了很多网上同仁的代码,如有冒犯,请海涵!现在工作真难找,我应聘的单位是http://www.027dns.net/,希望公司经理能给我上班的机会,我会很 努力的,因为软件行业才是我的世界!我一个大学本科生当保安都成了同事们的笑话了,呵呵。这是我第一次求职软件行业,第一次做面试题目,第一次自己这么认真写博客文章,写的不好,大家 请指正,我会进步的!张素丰,转载请注明出处 http://www.cnblogs.com/zhangsufeng/archive/2009/02/28/1400224.html屁话少说,正文开始:假如我们采集网址:http://info.laser.hc360.com/list/z_news_yw.shtml 上的新闻,要求采集标题 、时间、内容、单篇文章如果有翻页则采集完全。这种类型的采集就是从指定网页获得新闻列表(即url),然后通过其url获得新闻详情,这是一种很常 见的采集方式,有可能到很多页面上去采集,所以我们可以采用接口来构造基类。首先定义  IGatherInfo.cs
 1using System; 2using System.Collections.Generic; 3using System.Linq; 4using System.Text; 5 6namespace ClassLibrary 7{ 8    /**//// <summary> 9    /// 新闻采集类接口10    /// </summary>11    interface IGatherInfo12    {13        /**//// <summary>14        /// 采集时间15        /// </summary>16        string gatherTime17        {18            get;19            set;20        }21        /**//// <summary>22        /// NewsListUrl:抽取页地址23        /// RegexString:正则表达式,抽取逻辑24        /// 返回新闻页url25        /// </summary>       26        List<string> GatherUrlList(string NewsListUrl, string RegexString);27        //采集新闻详细内容28        List<NewsDetail> GatherNewsDetail(List<string> NewsUrlList, string RegeXString);29    }30}31