从上图可以看出我需要的站点在标签<cite></cite>中,所以我使用正则表达式提取这其中的文本是否就可以呢?
3、编写正则表达式来获取站点地址
接下来的就是写表达式了,我使用Python3.2编写的,方便好用(~_~)
代码如下,先把搜索结果页面保持到e:/t3.txt中,在执行如下代码
import rep = re.compile(r"<cite>([^<>/].+?)</cite>")f = open("e:/t3.txt", encoding="utf-8")content = f.read()print (" ".join(p.findall(content)))运行如下:
大家可以对照一下运行效果图,看看所有的站点地址是不是都给获取到了。