phantomjs

Phantomjs v.2.1 addCookie()始终返回错误

Phantomjs v.2.1 addCookie()始终返回错误也是最近刚接触Phantomjs,打算用来爬一爬学校的信息门户海报(因为学校的海报有的是文字又有的是图片,图片的链接也比较奇怪:my. .edu.cn/attachmentDownload.portal?xxxxxxxxxxxxx好像还要通过向某个地方申请之后才会返回过来。直接下载下来的图片的格式也是 .p

复杂爬虫编写心得

信息收集和网站地图绘制比编程更重要。浏览器访问效率的最大值是爬虫效率的最低值。永远不要使用selenium,尽量不要使用phantomjs对于脾气暴躁、技术能力强的网站,要让爬虫变的友善复杂爬虫不宜过度优化,越冗余,维护成本越低。尽量使用api和手机端接口。关键字:网页爬虫, 爬虫, selenium, phantomjs