开发软件:Pycharm 开发环境: Python3.6
开发技术:Requests,Pandas,numpy,csv,Matplotlib,SnowNLP,seaborn
(1)getData爬取数据部分:
Fansdata —存放每个股票的粉丝数
Pricedata —每个股票的价格、成交额等信息
Reviewdata –每个股票的评论
Score –评论经过情感分析后的得分,通过snowNlp实现,分为消极积极中等
Getfans –爬取粉丝数代码
GetReview –爬取评论代码
Login –模拟登陆
Price –爬取价格成交额等信息
由于300只股票中有部分代号不为SH开头,所以当遍历到的代号在下图中时,头为SZ。在将股票代号名称带入到网址中进行爬虫。
爬评论:爬取前100页(在查看数据后,便于数据的统一手动将top5数据筛选到3.22-4.23号)。
爬价格:由于爬取价格需要登陆,不登陆无法得到价格。所以需要先进行登陆。
登录之后,根据日k线数据,找到网址爬取部分数据。
(2)managedata数据分析部分:
Anapriceandturover:为价格与成交量折线图
Anareview:价格与三种情感之间的关系。选出top5的股票代码、价格;根据评论里的日期,遍历得到所有评论的日期区间;根据评论的得分,统计消极积极中立各自数量;最后将所有数据画成折线图,评论数量的坐标在左,价格在右
Heatmap:价格与成交额的热力图
Nlp:通过snownlp对每一条评论进行情感分析,保存成csv文件
照片名称:1爬取股票粉丝代码
照片名称:2爬取股票评论数据源码
照片名称:3模拟登录网站源码
照片名称:4爬取股票价格成交额源码
照片名称:5价格与成交量折线图源码
照片名称:6价格与成交量折线图运行效果图
照片名称:7价格与情感之间的关系图分析代码
照片名称:8价格与情感之间的关系图分析效果图
照片名称:9价格与成交额热力图代码
照片名称:10价格与成交额热力图运行效果
照片名称:11调用SnowNLP工具分析股票评论数据的情感