饲养护理
爬虫软件:网站爬虫怎么爬取多个网站文章标题列表?
编辑:sqxzgg时间:2022-05-12来源:人人爱宠物网

谢谢邀请爬虫软件,网络爬虫如何处理这个,其实是数据提取的那一步骤,首先我们要清楚知道网页的页面结构,这是根本,因为网页是一个树形结构,是有层次的。不然,我们是很难提取到我们想要的数据,所以,心中要有这样一个概念:网页是结构分层分明的树形文档。

爬虫软件:网站爬虫怎么爬取多个网站文章标题列表?

在这里我以搜房网为例:/housing/爬虫软件,这个页面,是一个小区的List页面,我们现在要提取其中的小区名称和URL。

首先,查看页面的结构点击右键,选择查看选择,得到如下这样一个页面爬虫软件。因为是一个List,所以有很多个小区,这些小区的信息应该是在一个div样式下面的。在这里我们看到这样一行<div class="houselist">,这个就是我们要找的根div。

解析出我们想要的内容-小区名称、页面URL我们就可以使用xpath提取页面中的内容爬虫软件,在这里我们就可以这样描述:

selectore_list = response.xpath('//div[@class="houseList"]/*/dl/dd/a[@class="plotTit"]')

这样的话是提取的整个页面的列表,我们还需要通过循环把每个小区的标题和页面URL取出来,我们可以这样写爬虫软件:

for li in selector_list: title = li.xpath('./@href').extract()[0] urls = li.xpath('./text()').extract()[0]

这样的话里面的标题和页面url都提取出来的。关于xpath如何使用,可以查询相关的课程学习。

以上就是整个提取过程,我的理解是只要熟悉页面的结构,然后对xpath的掌握,提取标题、爬取页面后的数据提取都是比较简单的一件事,希望对你有帮助。欢迎大家留言讨论。