CDN源站屏蔽搜索引擎爬虫

2016-07-18 00:08:00

原文转自本人博客 - Ku_Andrew's Blog
CDN源站屏蔽搜索引擎爬虫

0x00 前言

自从去年全站使用阿里云CDN之后，网站访问速度得到了很明显的提升，同时阿里云CDN的稳定性也很棒。但最近这段时间发现，百度和谷歌的爬虫开始爬我的源站了。这就有点麻烦了，要是不赶紧解决，给主站降权就不好了。

0x01 思路

因为蜘蛛爬了不该爬的东西，解决思路自然是限制蜘蛛的爬取。
大概有三种方法可以限制蜘蛛的抓取：

1.robots.txt文件

robots文件用于限制搜索引擎蜘蛛的行为，在源站屏蔽蜘蛛主要是为了限制蜘蛛对同程序下不同域名的抓取。但是robots.txt文件没有可以限制域名相关的参数，只能限制蜘蛛对当前域名下文件的抓取，此路不通。

2.设置META标签

当访客访问的域名不是主站域名时，在网页的标签中植入限制蜘蛛活动的内容，实现起来比较简单，只用修改一下模板中的header文件即可。

3.识别蜘蛛的UA，在网站程序上做限制

获取访客的User-Agent，如果是搜索引擎蜘蛛的UA，则跳转至主站。也有一个问题，就是要去网上收集各家搜索引擎蜘蛛的UA，想着就累。
人懒，就选择设置META标签的方法。

0x02 实践

第一步，在程序中获取访客访问的域名。这一歩就不做多介绍了，不同语言和环境有不同的方法获取，PHP可以通过如下语句获取访问者当前访问的域名：
$_SERVER['SERVER_NAME'];
第二步，如果不为主站域名，则输出HEAD中的META标签限制蜘蛛的活动：

if ($_SERVER['SERVER_NAME'] != 'www.kungg.com' {    echo '';}

0x03 大功告成

额，插不了图片。。

关键字：cdn, 蜘蛛, 搜索引擎, seo

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界搜索引擎 cdn 蜘蛛 seo

上一篇 > 深析filemap.js——关于JS的算法及优化的实践
下一篇 > 移动端H5页面rem缩放方案fleible.js兼容375p方案的思路

不同类型商家如何在搜索流量竞争中胜出？秘诀在这里！

大模型来了，我还用搜索吗？

2024年，你还在用传统搜索引擎吗？AI搜索的未来在哪？

AI搜索之战：谁在成为中国的Perplexity

AI搜索新贵弯道超车难

创始人说 | Devv 是如何打造一个月入3万美元的AI搜索引擎的？

Google 发布「AI 全家桶」反击 GPT-4o ！搜索引擎罕见大更新， 121 句「AI 」道尽焦虑

AI搜索颠覆百度？你想得有点多

小红书们，抢上搜索「末班车」

Perplexity：用答案引擎挑战Google | 万字长文

Arc Search，颠覆传统浏览器和搜索引擎？

ChatGPT救不了必应

AI 搜索｜关于搜索的想象，和目前估值最高的生成式搜索引擎 Perplexity

不仅做GPT Store，OpenAI还要做AI搜索引擎

ChatGPT和视觉搜索，正在改变搜索市场格局

To B 企业如何规划匹配业务的SEO资源投入？

图库网站SEO（搜索引擎优化）案例

GPT-4地位难保，谷歌Gemini新王登基？

大模型+搜索：一盘跳棋和三位选手

曾经全球第一的搜索引擎，终于要复活了