新媒体人必会的傻瓜式爬虫工具：上手 Web Scraper 的 5 个步骤

2017-08-25 10:45:00

做新媒体运营，很多时候会需要用到数据来帮助工作，比如你新进到一家公司做新媒体内容编辑，那你需要盘点公司已有的内容资产，避免重复生产内容。这时候就需要把网页上的数据给扒下来，放在一起，才会一目了然。

从网页上扒数据，最好用的方法当然是爬虫工具啦。很多人都以为爬虫很难学吧？我一开始也这么认为的，直到我遇到了 Web Scraper 这个工具，才知道原来爬网页数据也可以这么简单。

下面，我就现身说法，讲解一个小白是怎么快速上手 Web Scraper 的。

步骤一：下载 Web Scraper

Web Scraper 是 Chrome 浏览器上的一个插件，你需要翻墙进入 Chrome 应用商店，下载 Web Scraper 插件。

先打开一个你想爬数据的网页，比如我想爬今日头条上「吴晓波频道」这个账户的文章标题、时间、评论数，那我就先打开它，再一一进行操作。

然后用快捷键 Ctrl + Shift + I / F12 打开 Web Scraper 。

点击 Create New Sitemap ，里面有两个选项，import sitemap是指导入一个现成的 sitemap，咱小白一般没有现成的，所以一般不选这个，选create sitemap 就好。然后进行这两个操作：

Sitemap Name ：代表你这个 Sitemap 是适用于哪一个网页的，所以你可以根据网页来自命名，不过需要使用英文字母，比如我抓的是今日头条的数据，那我就用 toutiao 来命名；
Sitemap URL ：把网页链接复制到 Star URL 这一栏，比如图片里我把「吴晓波频道」的主页链接复制到了这一栏。

整个 Web Scraper 的抓取逻辑是这样：设置一级 Selector，选定抓取范围；在一级 Selector 下设置二级 Selector，选定抓取字段，然后抓取。

咱们换个接地气的例子，假如你要获取福建人的姓名、性别和年龄这三个要素，那么你得这么做：首先要定位到福建省，然后再在福建省里面去定位姓名、性别、年龄。

在这里，一级 Selector 表示你要在中国这个大的国家圈出福建省，二级Selector 表示你要在福建省的人口中圈定姓名、性别、年龄这三个要素。

对于文章而言，一级 Selector 就是你要把这一块文章的要素圈出来，这个要素可能包含了标题、作者、发布时间、评论数等等，然后我们再在二级 Selector 中挑出我们要的要素，比如标题、作者、阅读数。

下面我们来拆解这个设置一级、二级 Selector 的工作流：

输入id ：id 代表你抓取的整个范围，比如这里是文章，我们可以命名为 wuxiaobo-articles；
选择Type ：type 代表你抓取的这部分的类型，比如元素／文本／链接，因为这个是整个文章要素范围选取，我们需要用 Element 来先整体选取（如果这个网页需要滑动加载更多，那就选 Element Scroll Down）；
勾选Multiple ：勾选 Multiple 前面的小框，因为你要选的是多个元素而不是单个元素，当我们勾选的时候，爬虫插件会帮助我们识别多篇同类的文章；
保留设置：其余未提及部分保留默认设置。