python爬虫知识储备

在开始制作爬虫之前,必要的知识储备是必须的。下面就对基本的知识和工具做些总结.

推荐网页:

  • https://www.crifan.com/how_to_use_some_language_python_csharp_to_implement_crawl_website_extract_dynamic_webpage_content_emulate_login_website/
  • http://cuiqingcai.com/968.html

什么是GET与Post请求

  • GET请求,在访问url中直接包含?variable=key,例如
python=easy&learn=good
  • Post请求。比如要登录一个网站(比如知乎),或者填写了一个表格,通常将表单(Form Data)post给网站。

cookie的存放位置

http://blog.csdn.net/songzhichao4444/article/details/19077729https://www.cnblogs.com/huangye-dream/archive/2013/02/01/2889248.html

cookie不能用文本打开,但是可以通过sqlite查看

网页调试

注意,下文出现的所有浏览器都以Chrome为例。
建议IE, Chrome 同时使用

  • F12 -> network。有时需要将preserve log勾上,否则网页跳转的时候log会清空
  • 清除cookie和cache。
    • setting -> 高级 -> 隐私设置和安全性 -> 内容设置 -> cookie
    • 右键-> clear cache or cookie

(未完待续)


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部