前两篇文章,我们知道了怎么去爬取一个电影网站了,下面我们将使用MongoDB把爬下来的数据存储起来。
1. 我们将使用到flask_mongoengine,请大家自行安装,文档(http://docs.mongoengine.org/)pip install flask_mongoengine
2. 编辑app.py文件,引入mongoDB到项目中
data:image/s3,"s3://crabby-images/f97d0/f97d0d51e7ee082046f8315cb55bc5404e9f084b" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
3. 新建我们存放资源的模块,大致结构如下
data:image/s3,"s3://crabby-images/edee6/edee6b6c588380adf7331a7382778ae847efce8e" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
4. 编辑模块下models/resource.py文件,这个文件用来编辑我们资源的models
data:image/s3,"s3://crabby-images/39529/3952965fbf1a92dfaa8e2896e05833c1adb28af4" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
5. 新建api/resource.py文件,里面提供一些基础的api(提供搜索服务)
data:image/s3,"s3://crabby-images/ce18c/ce18c71e89d3c9a6a08b74fff4e932d333504c3f" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
(提供爬虫服务)
data:image/s3,"s3://crabby-images/42c40/42c406307d541ce751679f2ef9d40f6348bdf2cf" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
需要导入的依赖
data:image/s3,"s3://crabby-images/bb4dd/bb4dd3519d6d2d7b773b816439e3a99d8198db35" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
6. 把api/resource.py加入到api模块中
data:image/s3,"s3://crabby-images/da249/da24995fee6f91d0b7aff3cec1f9cb5145fab341" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
data:image/s3,"s3://crabby-images/67a04/67a0465bd28ef3643dfba299d5eaacc40a292108" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
7. 在app.py中引入api
data:image/s3,"s3://crabby-images/e808a/e808a605d8a864a76c71b4552f698e6a94309eae" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
8. 为了方便运行,我们把app.run()单独放在一个文件中
data:image/s3,"s3://crabby-images/f1211/f1211baa30b7588abb72d2fac98ce7e4f863589d" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
data:image/s3,"s3://crabby-images/78c43/78c430fe29f850552109e0a87a2493683d9b43c6" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
并且删除掉原来app.py中该段代码
9. 运行run.py
10. 打开chrome,输入网址(http://127.0.0.1:5000/api/resource/spider/)爬虫就开始运行了,等待运行完成,打开mongoDB compass(mongoDB的管理工具,可以自行下载)
data:image/s3,"s3://crabby-images/e9ab7/e9ab76df95b7107b29b9e5f0a1755f7a5b0adb48" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
可以看到,数据都存储到了mongoDB中,我们随机用接口查询一下资源
11. 打开chrome,输入网址(巨齿鲨/)
data:image/s3,"s3://crabby-images/f03e0/f03e0c7dee7ec32180ee4dee09fbb8e829594289" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"
我们的数据就从数据库查询出来了
12. 好了,现在我们有了爬虫,也可以写入数据库了,但是如果每次都需要我手动去输入URL爬虫才能运行,这样不够自动化啊~所以下一章我们将使用定时任务来调起爬虫服务。
(源码请点击了解更多)
data:image/s3,"s3://crabby-images/48372/4837204b737532d3d0aa6325f0568e9f74e4d49f" alt="「Python」「电影爬虫小程序」5.MongoDB数据存取"