segmentfault 线下活动数据分析
开始说明
目标:练习爬虫
KeyWord:python3.5 scrapy BeautifulSoup4 mysql flask
echart3
segmentfault 上的很多线下技术交流活动都很好,我自己也参加过一些,就比较好奇这些活动都有哪些特点,比如说:
一般在星期几举办?
什么月份比较多?
哪个城市比较多?
一般都是哪些类型的?
主要分两个部分:爬虫抓取部分、数据展示部分
爬虫抓取部分
主要思路:
确定要抓取的数据有哪些。
包括:活动名称、举办时间(日期、星期)、城市、活动目前状态等等。确定抓取多少页。
一直抓到页面上没有「下一页」按钮为止。
于是,写了个简单的爬虫把这些数据都拿到手,分析了一下。
实施步骤:
1.分析页面链接和内容,确定要抓取的内容
这里主要是结合 BeautifulSoup 来确定数据;
2.创建数据表
确定要抓取的数据后存储在 Mysql 中,语句如下:
CREATE TABLE `blog`.`` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(100) NOT NULL, `c_date` varchar(20) NOT NULL, `week` varchar(8) NOT NULL, `week_number` int(11) NOT NULL, `city` varchar(20) NOT NULL, `icon` varchar(100) NOT NULL, `status` varchar(10) NOT NULL, `detail` varchar(100) NOT NULL, `join_link` varchar(100) NOT NULL, `link` varchar(100) NOT NULL, PRIMARY KEY (`id`)) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;
3.编码实现
使用 scrapy 框架,代码在这:爬虫部分代码。
展示部分
使用百度的 echart3 图表工具,web 框架使用 flask。
代码在这里:数据展示部分代码。
下图是我想到的几种情况分析:
以上!
关键字:scrapy, null, varchar, not
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!