首页 > 电脑故障

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

番茄系统家园 · 2022-06-02 06:37:19

大家好，我是杯酒先生，这是我第一次写这种分享项目的文章，可能很水，很不全面，而且肯定存在说错的地方，希望大家可以评论里加以指点，不胜感激!

一、前言

网络爬虫(又称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。------百度百科

说人话就是，爬虫是用来海量规则化获取数据，然后进行处理和运用，在大数据、金融、机器学习等等方面都是必须的支撑条件之一。

目前在一线城市中，爬虫的岗位薪资待遇都是比较客观的，之后提升到中、高级爬虫工程师，数据分析师、大数据开发岗位等，都是很好的过渡。

二、项目目标

本此介绍的项目其实不用想的太过复杂，最终要实现的目标也就是将帖子的每条评论爬取到数据库中，并且做到可以更新数据，防止重复爬取，反爬等措施。

三、项目准备

这部分主要是介绍本文需要用到的工具，涉及的库，网页等信息等

软件：PyCharm

需要的库：Scrapy， selenium， pymongo， user_agent，datetime

目标网站：

插件：chromedriver(版本要对)

四、项目分析

1、确定爬取网站的结构

简而言之：确定网站的加载方式，怎样才能正确的一级一级的进入到帖子中抓取数据，使用什么格式保存数据等。

其次，观察网站的层级结构，也就是说，怎么根据板块，一点点进入到帖子页面中，这对本次爬虫任务非常重要，也是主要编写代码的部分。

2、如何选择合适的方式爬取数据?

目前我知道的爬虫方法大概有如下(不全，但是比较常用)：

1)request框架：运用这个http库可以很灵活的爬取需要的数据，简单但是过程稍微繁琐，并且可以配合抓包工具对数据进行获取。但是需要确定headers头以及相应的请求参数，否则无法获取数据;很多app爬取、图片视频爬取随爬随停，比较轻量灵活，并且高并发与分布式部署也非常灵活，对于功能可以更好实现。

2)scrapy框架：scrapy框架可以说是爬虫最常用，最好用的爬虫框架了，优点很多：scrapy 是异步的;采取可读性更强的xpath代替正则;强大的统计和 log 系统;同时在不同的 url 上爬行;支持 shell方式，方便独立调试;支持写middleware方便写一些统一的过滤器;可以通过管道的方式存入数据库等等。这也是本次文章所要介绍的框架(结合selenium库)。

五、项目实现

1、第一步：确定网站类型

首先解释一下是什么意思，看什么网站，首先要看网站的加载方式，是静态加载，还是动态加载(js加载)，还是别的方式;根据不一样的加载方式需要不同的办法应对。然后我们观察今天爬取的网站，发现这是一个有年代感的论坛，首先猜测是静态加载的网站;我们开启组织js加载的插件，如下图所示。

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

刷新之后发现确实是静态网站(如果可以正常加载基本都是静态加载的)。

2、第二步：确定层级关系

其次，我们今天要爬取的网站是食品论坛网站，是静态加载的网站，在之前分析的时候已经了解了，然后是层级结构：

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

大概是上面的流程，总共有三级递进访问，之后到达帖子页面，如下图所示。

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

部分代码展示：

一级界面：

二级界面：

三级界面：

3、第三步：确定爬取方法

由于是静态网页，首先决定采用的是scrapy框架直接获取数据，并且通过前期测试发现方法确实可行，不过当时年少轻狂，小看了网站的保护措施，由于耐心有限，没有加上定时器限制爬取速度，导致我被网站加了限制，并且网站由静态加载网页变为：动态加载网页验证算法之后再进入到该网页，直接访问会被后台拒绝。

但是这种问题怎么会难道我这小聪明，经过我短暂地思考(1天)，我将方案改为scrapy框架+selenium库的方法，通过调用chromedriver，模拟访问网站，等网站加载完了再爬取不就完了，后续证明这个方法确实可行，并且效率也不错。

实现部分代码如下：

4、第四步：确定爬取数据的储存格式

这部分不用多说，根据自己需求，将需要爬取的数据格式设置在items.py中。在工程中引用该格式保存即可：

5、第五步：确定保存数据库

本次项目选择保存的数据库为mongodb，由于是非关系型数据库，优点显而易见，对格式要求没有那么高，可以灵活储存多维数据，一般是爬虫优选数据库(不要和我说redis，会了我也用，主要是不会)

代码：

这时，有聪明的盆友就会问：如果运行两次爬取到了一样的数据怎么办呢?(换句话说就是查重功能)

这个问题之前我也没有考虑，后来在我询问大佬的过程中知道了，在我们存数据的时候就已经做完这件事了，就是这句：

通过帖子的链接确定是否有数据爬取重复，如果重复可以理解为将其覆盖，这样也可以做到更新数据。

6、其他设置

像多线程、headers头，管道传输顺序等问题，都在settings.py文件中设置，具体可以参考小编的项目去看，这里不再赘述。

七、效果展示

1、点击运行，结果显示在控制台，如下图所示。

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

2、中间会一直向队列中堆很多帖子的爬取任务，然后多线程处理，我设置的是16线程，速度还是很可观的。

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

3、数据库数据展示：

手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库

content_info中存放着每个帖子的全部留言以及相关用户的公开信息。

八、总结

1、这篇文章主要给大家介绍了食品网站的数据采集和存储过程，详解了如何分析网页结构、爬虫策略、网站类型、层级关系、爬虫方法和数据存储过程，最终实现将帖子的每条评论爬取到数据库中，并且做到可以更新数据，防止重复爬取，反爬等，干货满满。

2、本次项目总的来说，不是特别难搞，只要思路对了，找到了数据规则，爬起来可以说易如反掌，觉得难只是之前没有完整走过流程，有了这次比较水的介绍，希望能对你有所帮助，那将是我最大的荣幸。

3、遇到问题首先想的不是问同事，朋友，老师，而是去谷歌，百度，看有没有相似的情况，看别人的经历，一定要学会自己发现问题，思考问题，解决问题，这对于之后工作有非常大的帮助(我之前就被说过还没有脱离学生时代，就是我喜欢问同事)，等网上查询了一定资料了，还是没有头绪，再去问别人，别人也会比较愿意帮助你的~

我是杯酒先生，最后分享我的座右铭给大家：保持独立思考，不卑不亢不怂。

最后需要本文项目代码的小伙伴，请在公众号后台回复“食品论坛”关键字进行获取，如果在运行过程中有遇到任何问题，请随时留言或者加小编好友，小编看到会帮助大家解决bug噢!

免责声明：凡标注转载/编译字样内容并非本站原创，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如果你觉得本文好，欢迎推荐给朋友阅读；本文链接： https://m.nndssk.com/dngz/3300329p538U.html。