第279章 未雨绸缪 (3 / 4) 首页

字体:      护眼 关灯

上一章 目录 下一章

第279章 未雨绸缪 (3 / 4)
        快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。

        但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。

        也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。

        这么干不是不行,可以采取robots协议实现。

        简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署robots.txt文件,告知搜索引擎的爬虫哪些内容不应被爬取。

        即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。

        但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。

        中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。

        如果网站的拥有者还希望网站能被人们访问到的话,就只能乖乖接受搜索引擎的爬取,并祈祷搜索引擎公司足够讲道理,不过分使用快照等方式进行截流。

        其实robots协议里存在白名单的机制,看上去嘉盛可以只允许自家的搜索引的爬虫进行爬取,拒绝其他搜索引擎的爬虫。

        但实际上这一点也是行不通的。

        前世为了打击360,百度就曾使用robots协议白名单,禁止360抓取百度百科、百度贴吧和百度知道的内容,而谷歌、Bing、搜狗和搜搜等搜索引擎还可以自由抓取。

        360认为百度对robots协议的使用具有歧视性而拒绝遵守,百度也因此起诉360不遵守robots协议。

        内容未完,下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网,https://wap.mywenxue.org》
加入书签我的书架


上一章 目录 下一章