浅析互联网中的缓存机制

2017-11-25 19:36:00

缓存，在互联网产品中可以简单理解为：第一次请求数据放到存储器中，下次显示该页面先把上次保存的数据显示出来，同时去请求数据，请求完成刷新显示新数据，并将其再缓存起来。

当今互联网应用（网站或App）的整体实现流程是：用户的请求从界面（浏览器或App界面）到网络传送、应用服务再到存储（数据库或文件系统），然后返回到界面呈现内容。
随着内容信息越来越复杂，用户数和访问量越来越大，我们的应用需要支撑更多的并发量，同时应用服务器和数据库服务器所做的计算也越来越多。但是往往我们的应用服务器资源是有限的，数据库每秒能接受的请求次数也是有限的（文件的读写也是有限的），如何能够有效利用有限的资源来提供尽可能大的吞吐量？一个有效的办法就是引入缓存，每个环节中请求可以从缓存中直接获取目标数据并返回，从而减少计算量，有效提升响应速度，让有限的资源服务更多的用户。

计算机缓存

计算机的缓存往往使用的是RAM（断电就掉的非永久储存），所以在用完后还是会把文件送到硬盘等存储器里永久存储。计算机里最大的缓存是内存条，最快的是CPU上镶嵌的L1和L2缓存，显卡的显存是给显卡运算芯片用的缓存，硬盘上也有16M或者32M的缓存。
其工作原理是当CPU要读取数据时，首先从CPU缓存中查找，找到就立即读取并送给CPU处理；如果没有找到，就从速率相对较慢的内存中读取并送给CPU处理，同时把这个数据所在的数据区块调入缓存中，可以使以后对整块数据的读取都从缓存中进行，不必再调用内存。这样的读取机制CPU读取缓存的命中率非常高，也就是说CPU下一次要读取的数据90%都在CPU缓存中，只有大约10%需要从内存读取。这大大节省了CPU直接读取内存的时间，也使CPU读取数据时基本无需等待。

WEB浏览器缓存

下面我们进入正题。
浏览器会缓存它浏览过的「资源」（包括网页，图片等），如果资源在保质期内，那下次同样的请求直接用缓存。过期之后，会带上资源上次的修改时间，由服务器来判断是否失效，失效的话就会给浏览器返回新的数据并继续缓存下来。
浏览器的缓存，存在用户电脑的硬盘上，用户每次使用浏览器读取缓存时先将硬盘上的缓存数据加载到内存中，再读取给浏览器。
浏览器端缓存的规则主要在HTTP协议头和HTML的meta标签中定义。他们分别从新鲜度和校验值两个维度来规定浏览器是直接使用缓存中的数据，还是需要去源服务器获取更新的版本。
新鲜度（过期机制）：缓存数据保质期。缓存数据必须满足以下条件，浏览器会认为它是有效的，足够新的：

含有完整的过期时间控制头信息（HTTP协议报文头），并且仍在有效期内
浏览器已经使用过这个缓存数据，并且在上一次会话中（也就是用户上一次访问该数据时）已经检查过其新鲜度

满足以上两个情况的一种，浏览器会直接从缓存中获取缓存数据并渲染给浏览器。
校验值（验证机制）：服务器返回数据的时候有时在头信息中带上这个资源的实体标签，它可以用来作为浏览器再次请求过程的校验标识。如过发现校验标识不匹配，说明数据已经被修改或过期，浏览器需要重新获取数据内容。

HTTP缓存机制

还记得HTTP协议吗？在这篇文章中有对HTTP协议的简单介绍：浅析前后端数据交互
当用户通过浏览器发起一个数据请求的时候，浏览器会通过以下几步来获取数据：

本地缓存阶段：先在本地查找该数据，如果有发现该数据，而且该数据还没有过期，就使用此数据，不会发送http请求到服务器
协商缓存阶段：如果在本地缓存找到对应的数据，但是不知道该数据是否过期，则发一个HTTP请求到服务器，然后服务器判断这个请求，如果请求的数据在服务器上没有改动过或过期，则返回304状态码（可以理解为服务器给浏览器的暗号），让浏览器在本地找到该数据
缓存失败阶段：当服务器发现请求的资源已经修改过，或者这是一个新的请求，服务器则返回该数据，并且返回200状态码，此过程的前提是指找到该数据，如果服务器上没有数据，则返回404（这个大家多见过吧，就是平时见到404页面时的状态码）

浏览器中的操作对缓存的影响

强制刷新：当按下ctrl+F5来刷新页面的时候，浏览器将绕过各种缓存(本地缓存和协商缓存)，直接让服务器返回最新数据
普通刷新：当按下F5或者点击刷新按钮来刷新页面的时候，浏览器将绕过本地缓存发送请求给服务器，此时协商缓存是有效的
回车或跳转：当在地址栏上输入回车或者按下跳转按钮的时候，所有缓存都生效

浏览器缓存机制

安卓、iOS缓存机制

APP上的缓存机制和浏览器缓存的原理类似，APP与服务器交互的协议同样是大多基于HTTP（S）。
先普及下基础知识：手机内存包括运行内存和内部存储。运行内存是用来运行程序的，不能用来永久存储数据，手机一旦关机或杀死进程，在内存中的所有数据都将会丢失。内部存储相当于计算机中的硬盘的角色，用于存储操作系统和应用程序的存储介质。
iOS的本地缓存数据存在磁盘存储（内部存储）中，由于Android手机通常将内部存储器固定在芯上，所以一般无法更换内部存储器的。为了增强Android手机的存储能力，很多Android手机都支持扩展的SD卡（相当于计算机的U盘或者移动硬盘）功能。所以，Android手机存储缓存是可以选择数据存储位置的。
APP端存储数据的时候，会存储很多字段内容，一般情况下后台会给每条数据设定一个独立的id值，那么前端在请求数据的可以先查询本地缓存的数据中，最新的一条数据的id值，通过网络请求，把这个id值发给服务端，服务端会根据这个id在后台服务器中查询是否有比这个id值更大（更新）的数据存在，如果有就把新的数据返回给前端APP。

数据库缓存

数据库的缓存机制分为两个层面。

由数据库提供，可以对数据表建立的高速缓存。数据库的数据临时保存在一个位置上，再次同样的请求直接把这个数据返回去，而不需要再次去查询各种表取数据了，减少了查数据库的时间，提升效率。并不是所有的历史记录都缓存起来，要有策略，比如只缓存两个月的数据，并且两个月之前有请求过之后不再请求该数据的时候就会回收，就是把这条记录抹掉，就近多次请求的才会保存。时间过长、使用率不高的优先清除，要不然缓存太多就失去了缓存的本质和意义。
在数据库中，数据都是存放在磁盘中的。虽然数据库层做了对应的缓存，但这种数据库层次的缓存一般针对的是查询内容，一般只有表中数据没有变更的时候，数据库对应的缓存才发挥了作用。有时并不能减少业务系统对数据库产生的增、删、查、改产生的庞大压力。此时，一般的做法是在数据库与业务服务器之间增加一个缓存服务器，比如我们熟悉的redis。客户端第一次请求的数据从数据库拿出后就放到了redis中，数据不过期或不更改的前提下，下一次的请求都从redis中直接拿数据，这样做极大的缓解了数据库的压力。

服务器缓存

业务服务器缓存

业务服务器缓存是将动态页面直接生成静态的页面放在服务器上的硬盘里，用户调取相同页面时，静态页面将直接下载到客户端，不再需要通过程序的运行和数据库的访问，大大节约了服务器的负载。
每次访问页面时，会检测相应的缓存页面是否存在，若不存在，则连接数据库得到数据渲染页面并生成缓存页面文件，这样下次访问的页面文件就能发挥作用了。
举一个小例子：

用户A访问a页面，服务器解析a页面返回给用户A，同时在服务器内存上做一个映射，把a页面缓存在服务器的硬盘上。用户B访问a页面，服务器直接根据内存上的映射找到相应的页面缓存，直接返回给用户B。这样做减少了服务器对同以页面的重复解析。

代理服务器缓存

代理服务器是客户端和业务服务器之间的中间服务器，客户端先向这个中间服务器发起请求，经过处理后，再将请求转发到业务服务器。代理服务器缓存的运作原理跟浏览器的运作原理差不多，只是规模更大。可以把它理解为一个共享缓存，不只为一个用户服务，一般为大量用户提供服务，因此在减少相应时间和带宽使用方面很有效，同一个缓存数据会被重复使用多次。
以上，就是关于缓存机制的简单总结。产品汪们，再涉及项目中的缓存机制时，就不怕被程序猿们怼了！

作者：流年，互联网产品设计师，4年互联网产品设计经验。