nodejs爬虫项目实战

2016-07-13 23:08:00

这篇文章主要介绍了NodeJS制作爬虫的全过程，包括项目建立，目标网站分析、使用superagent获取源数据、使用cheerio解析、使用eventproxy来并发抓取每个主题的内容等方面，有需要的小伙伴参考下吧。

一、依赖

1. DOM操作 cheerio

2. 请求插件 request

3. http库 superagent

4. 代理 eventproxy

二、建立项目node-spider

1. 建立一个Koa2项目

npm install -g koa-generator

2. 生成一个koa2的项目

koa2 -e node-spider -e表示使用ejs模板，具体参照koa生成器,一键生成koa和koa2项目

三、目标网站分析

如图，这是CNode首页一部分div标签，我们就是通过这一系列的id、class来定位我们需要的信息。

四、爬虫功能制作

1. superagent

是ajax API来使用的Http库，它的使用方法与jQuery差不多，我们通过它发起get请求，在回调函数中输出结果。

  var koa = require('koa');  var router = require('koa-router')  var url = require('url'); //解析操作url  var superagent = require('superagent'); //这三个外部依赖不要忘记npm install  var cheerio = require('cheerio');  var eventproxy = require('eventproxy');  var targetUrl = 'https://cnodejs.org/';  superagent.get(targetUrl)    .end(function (err, res) {        console.log(res);    });

它的res结果为一个包含目标url信息的对象，网站内容主要在其text(string)里。

2. 使用cheerio解析

cheerio充当服务器端的jQuery功能，我们先使用它的.load()来载入HTML，再通过CSS selector来筛选元素。

  var $ = cheerio.load(res.text);  //通过CSS selector来筛选数据  $('# topic_list .topic_title').each(function (idx, element) {      console.log(element);  });

其结果为一个个对象，调用 .each(function(index, element))函数来遍历每一个对象，返回的是HTML DOM Elements。

输出 console.log($element.attr('title'));的结果为
广州2014年12月06日 NodeParty 之 UC 场之类的标题
输出 console.log($element.attr('href'));的结果为
/topic/545c395becbcb78265856eb2之类的url。
再用NodeJS1的url.resolve()函数来补全完整的url。

superagent.get(tUrl)    .end(function (err, res) {        if (err) {            return console.error(err);        }        var topicUrls = [];        var $ = cheerio.load(res.text);        // 获取首页所有的链接        $('# topic_list .topic_title').each(function (idx, element) {            var $element = $(element);            var href = url.resolve(tUrl, $element.attr('href'));            console.log(href);            //topicUrls.push(href);        });    });

3.使用eventproxy来并发抓取

教程上展示了深度嵌套(串行)方法和计数器方法的例子，eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后，eventproxy接收到事件消息自动帮你调用处理函数。

  //第一步：得到一个 eventproxy 的实例  var ep = new eventproxy();  //第二步：定义监听事件的回调函数。  //after方法为重复监听  //params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数  ep.after('topic_html', topicUrls.length, function(topics){      // topics 是个数组，包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair      //.map      topics = topics.map(function(topicPair){          //use cheerio          var topicUrl = topicPair[0];          var topicHtml = topicPair[1];          var $ = cheerio.load(topicHtml);          return ({              title: $('.topic_full_title').text().trim(),              href: topicUrl,              comment1: $('.reply_content').eq(0).text().trim()          });      });      //outcome      console.log('outcome:');      console.log(topics);  });  //第三步：确定放出事件消息的  topicUrls.forEach(function (topicUrl) {      superagent.get(topicUrl)          .end(function (err, res) {              console.log('fetch ' + topicUrl + ' successful');              ep.emit('topic_html', [topicUrl, res.text]);          });  });

结果如下

获取留言用户名和积分

在文章页面的源码找到评论的用户class名，classname为reply_author。console.log第一个元素 $('.reply_author').get(0)可以看到，我们需要获取东西都在这里头。

首先，我们先对一篇文章进行抓取，一次性把需要的都得到即可。

  var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);  console.log(userHref);  console.log($('.reply_author').get(0).children[0].data);

我们可以通过https://cnodejs.org/user/username抓取积分信息

$('.reply_author').each(function (idx, element) {var $element = $(element);console.log($element.attr('href'));});

在用户信息页面 $('.big').text().trim()即为积分信息。
使用cheerio的函数.get(0)为获取第一个元素。

var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);console.log(userHref);

关键字：node.js, nodejs爬虫, JavaScript, var

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界 JavaScript node.js var nodejs爬虫

上一篇 > 常用npm模块分享
下一篇 > 如何将editor.md的图片上传改成七牛?

2018 年，你应该花 5 个月时间去学习编程，并找到一份好工作

前端开发自动化单元测试趋势

[译] 快速介绍 JavaScript 中的 CSP

前端静态资源版本更新与缓存之——通过gulp 在原html文件上自动化添加js、css版本号

gitbook

在JavaScript中，如何判断数组是数组？

大段文本的多个关键字高亮

《JavaScript高级程序设计》笔记系列3-- 数据类型

如何打造一个令人愉悦的前端开发环境（二）

谈谈JS设计模式和应用场景一(单例模式)

正在暑假中的《课多周刊》(第1期)

【page-monitor 前端自动化中篇】源码分析

document.write知多少

React-Redu源码剖析

【page-monitor 前端自动化上篇】初步调研

详解 ESLint 规则，规范你的代码

【page-monitor 前端自动化下篇】实践应用

关于 JavaScript 闭包的简单例子

JavaScript 面向对象开发知识总结基础篇

为你的博客添加搜索功能吧!

一步步编写avalon组件05：树组件

《每周一点canvas动画》——从2D到3D

打造性感好用的Atom编辑器

JavaScript初应用：找到数组中出现最多的字母并给出个数以及每一个所在的位置