开发环境: Pycharm + Python3.6 + Django2.0 + mysql数据库,redis数据库
毕业设计-中国知网(cnki)爬虫及数据可视化,采用Django和Celery将爬虫内置在网站内,展示实时爬取的数据,数据结果通过Highcharts图表展示!其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容的抓取!
启动爬虫celery进程:python manage.py celery worker
注意:celery框架里面有个方法和python3.7的关键字冲突,所以用python3.6吧!
还需要执行pip install lxml==4.5.2 解决html文档结构分析依赖的包
照片名称:1中国知网爬虫数据及可视化网站首页
照片名称:2爬虫异步工作celery进程启动等待执行
照片名称:3网站端输入关键字准备开启爬虫
照片名称:4python通过selenium控制谷歌浏览器
照片名称:5python通过selenium控制浏览器访问网站
照片名称:6python通过selenium控制浏览器获取网站数据
照片名称:7celery异步抓取数据进程状态展示
照片名称:8celery异步抓取数据进程状态展示2
照片名称:9网站显示抓取知网论文文章数据进度
照片名称:10知网论文数量年度走势图
照片名称:11高产量作者排名图
照片名称:12高产量机构排名图
照片名称:13基金占比统计图
照片名称:14python项目源码目录
照片名称:15mysql数据库表