爬虫软件:网站爬虫怎么爬取多个网站文章标题列表？

饲养护理

编辑：sqxzgg时间：2022-05-12来源：人人爱宠物网

谢谢邀请爬虫软件，网络爬虫如何处理这个，其实是数据提取的那一步骤，首先我们要清楚知道网页的页面结构，这是根本，因为网页是一个树形结构，是有层次的。不然，我们是很难提取到我们想要的数据，所以，心中要有这样一个概念：网页是结构分层分明的树形文档。

爬虫软件:网站爬虫怎么爬取多个网站文章标题列表？

在这里我以搜房网为例：/housing/爬虫软件，这个页面，是一个小区的List页面，我们现在要提取其中的小区名称和URL。

首先，查看页面的结构点击右键，选择查看选择，得到如下这样一个页面爬虫软件。因为是一个List，所以有很多个小区，这些小区的信息应该是在一个div样式下面的。在这里我们看到这样一行<div class="houselist">，这个就是我们要找的根div。

解析出我们想要的内容-小区名称、页面URL我们就可以使用xpath提取页面中的内容爬虫软件，在这里我们就可以这样描述：

selectore_list = response.xpath('//div[@class="houseList"]/*/dl/dd/a[@class="plotTit"]')

这样的话是提取的整个页面的列表，我们还需要通过循环把每个小区的标题和页面URL取出来，我们可以这样写爬虫软件：

for li in selector_list: title = li.xpath('./@href').extract()[0] urls = li.xpath('./text()').extract()[0]

这样的话里面的标题和页面url都提取出来的。关于xpath如何使用，可以查询相关的课程学习。

以上就是整个提取过程，我的理解是只要熟悉页面的结构，然后对xpath的掌握，提取标题、爬取页面后的数据提取都是比较简单的一件事，希望对你有帮助。欢迎大家留言讨论。