成为搜索产品经理（2）：认识网络爬虫

策略产品研究院 2023-07-21 04:59:33

因为我本身并不从事技术岗位，本篇文章的读者，我也默认是与我一样，不从事技术岗位，但对技术有一定感知的同学，我将尽力将文章写得简单、易懂。

索引引擎系统由多个子模块组成，先来了解第一个模块，网络爬虫。

一、网络爬虫是什么？

用一个程序自动地将所有的网页下载到本地，在本地形成互联网的镜像备份。

二、通用爬虫框架

了解通用爬虫框架之前，让我们再次回顾上个章节讲过的超链接（hyperlinks）。

浏览网页时，点击超链接，浏览器就可跳转到相应的网页。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问每一个网页并把他们存起来。

（图的遍历算法，在这里不做解释，有兴趣的同学，可以自己查询）

上述说法较为抽象，让我们通过一个实例来了解。

网络爬虫如何下载整个互联网呢？

产品经理，产品经理网站

参考上图，从一家门户网站的首页开始。我们任意选择一家门户网站的首页，将其内容下载下来，并对内容进行分析，于是，我们能获取门户网站首页的所有超链接。接着，我们分别进入不同的超链接，比如，进入超链接一，重复对该网站进行内容下载。

当然，也需要记载哪个网页被下载过了，避免重复。

三、网络爬虫的特性

实用的爬虫系统应该具备如下几种特性：

3.1 高性能

互联网网页浩如烟海，因此爬虫的性能至关重要。性能定义为爬虫下载网页的速度，具体评价指标为爬虫每秒能下载的网页数量。单位时间能够下载网页数量越多，性能越高。

3.2 可扩展性

因为互联网网页数量巨大，即使单个爬虫性能很高，要完成爬虫任务，所耗费的时间也是极长。为了尽可能缩短抓取周期，爬虫系统应该有很好的可扩展性，可以通过增加爬虫数量来达到此目的。

3.3 健壮性

爬虫要访问各种类型的网站服务器，可能会遇到很多种非正常情况，比如网页HTML编码不规范，被抓取服务器突然死机。爬虫对各种异常情况能够正确处理非常重要，否则可能会不定期停止工作。

3.4 友好性

爬虫的友好性包含两方面的含义：
1. 保护网站的部分私密性
2. 减少被抓取网站的网络负载

四、爬虫质量的评价标准

从用户体验角度，我们需要对爬虫质量进行衡量，有以下3个指标：
1. 抓取网页覆盖率
2. 抓取网页时新性
3. 抓取网页重要性

4.1 覆盖率

覆盖率 = 爬虫抓取的网页数量 / 互联网所有网页数量的比例
覆盖率高，等价于搜索引擎的召回率越高。

产品经理，产品经理网站

上图中，互联网有5个网页，爬虫系统抓取了其中3个，因此召回率 = 3 / 5 = 60%

4.2 时效性

对很多抓到本地的网页来说，很多网页可能已经发生变化，或者被删除，爬虫完整抓取一轮需要较长的时间周期，所以抓取到的网页中必有一部分是过期的数据，即不能在网页变化后第一时间反映到网页库中，所以网页库中过期的数据越少，则网页的时效性越好，这对用户体验的作用非常重要。

4.3 重要性

互联网网页众多，但是每个网页重要性差异很大，比如来自雅虎新闻的网页和某个作弊网页相比，重要性有很大差异。如果搜索引擎爬虫抓回来的网页大都是比较重要的网页，则其在抓取网页重要性方面做得很好。

本章介绍了，搜索引擎的第一步，网络爬虫，分别从网络爬虫系统，网络爬虫的性能，以及网络爬虫的评价指标三大模块，对网络爬虫进行了讲解。

下一章，我们讲搜索引擎索引。

参考

数学之美
智能时代
这就是搜索引擎核心技术详解

本文作者 @一颗西兰花

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理产品经理初级产品经理搜索产品经理爬虫

上一篇 > 万字解析：如何提前成为高级PM？
下一篇 > 需求调研的第一步：项目背景调研

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品思维

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题