首页科技快报文章详情

如何让网站页面内容不被抓取? 五个不让网站页面内容不被抓取的技巧

2022-05-05 21:44:03 137

可能有的朋友会奇怪,网站的页面不是让搜索引擎抓的越多越好吗,怎么还会有怎么让网站页面内容不被抓取的想法。

首先,一个网站可以分出去的权重是有限,哪怕是Pr10的站,也不可能无限的分权重出去。这权重包括链到别人网站的处链以及自己网站内的内链。

外链的话,除非是想坑被链的人。否则外链都是需要让搜索引擎所抓取。这不在本文讨论范围之内。

而内链,因为有些网站有不少重复或冗余的内容。 比如一些按条件查询的搜索结果。特别是一些B2C站,在专门查询页或在所有产品页面的某个位置内,都可以按产品类型,型号,颜色,大小等进行分类搜索。这些页面虽然对浏览者来说是极大的方便,但对搜索引擎来说,这可是耗费蜘蛛极大的抓取时间,特别是网站页面较多时。同时也会分散页面权重,对SEO不利。

另外网站管理登陆页面,备份页面,测试页面等等,也是站长不想让搜索引擎所收录的。

所以就有需要让网页的某些内容,或某些页面不被搜索引擎所收录。

下面笔者先介绍一下较为有效的几种方法:

1.在FLASH展示不想被收录的内容

众所周知,搜索引擎对FLASH的内容抓取能力有限,不能完全抓取所有FLASH内的所有内容。但遗憾的是,也不能完全保证FLASH的所有内容都不会被抓取。因为谷歌和Adobe正努力的实现FLASH抓取技术。

2.使用robos文件

这是暂时最有效的方法,但有个很大的缺点。就是不传出任何的内容及链接。大家知道,在SEO来说比较健康的页面应该是有进有出的。有外链的链入,同时也页面内也需要有链到外部网站的链接,所以robots文件控制,让此页面只进不出,搜索引擎也不知道内容是什么。会把此页定为低质量页面。权重有可能受一定的惩罚。这个多用于网站管理页面,测试页面等。

3.使用nofollow标签包裹不想被收录的内容

这个方法也不能完全保证不被收录,因为这并不是严格要求遵守的标签。另外,如果有外部网站链向了有nofollow标签的页面。这样就很有可能会被搜索引擎抓取。

4.用Meta Noindex标签加上follow标签

这个方法可以做到防止收录而且还能传递出权重。要不要传递,看网站建设站长自己的需要。这个方法的缺点是,也是会较大的浪费蜘蛛的抓取页面时间。

5.用robots文件的同时在页面上使用iframe标签展示需要搜索引擎收录的内容robots文件可以阻止iframe标签以外的内容被收录 。所以,可以把不想收录的内容放到正常页面标签下。而想被收录的内容放在iframe标签内。

紧接着,再说一下已经失效的方法,大家以后不要用这些方法了。

1.使用表格

谷歌和百度早已经能抓取表格用的内容了,无法阻止收录。

2.使用Javascript及Ajax技术

以现在的技术来说,Ajax和javascript现在的最终运算的结果还是以HTML的形式传给浏览器以作显示,所以这同样无法阻止收录。

初学者大多着眼于如何收录,但细节决定成败。怎么让网站页面内容不被抓取也是SEO进阶人士需要注意的。谢谢阅读,希望能帮到大家,请继续关注脚本之家,我们会努力分享更多优秀的文章。


国外谷歌站长透露,Google搜索即将从今年11月份开始小范围启用HTTP/2方式抓取网站内容,爬行web页面时效率更高,不影响网站搜索排名。了解到,HTTP/是基于SPDY


浅谈搜索引擎收录的抓取规则?谈到SEO优化我们就必须不得不谈网站的收录问题,没有收录的站是不可能做的了SEO优化的,因此不收录不SEO这个句话是有一定道理的,今天就由站优云宇凡来为大家浅谈下搜索引擎收录的抓取规则有哪些


A5站长网9月13日消息:相信更多的站长每天都关注着搜索引擎的排名以及收录问题,但是,我们的网站是否符合百度等其它搜索引擎抓取习惯的网站以及建站需要注意哪些事项等等。对于以上的问题,在昨日(9月12日)百度站长平台lee给大家分享了关于如何建立符合搜索抓取习惯


之前百度站长lee给大家介绍了搜索抓取系统工作原理,根据该工作原理今天简要介绍一下如何建立网站是符合搜索引擎抓取系统习惯的。

标签:

随机快审展示 刷新 快审榜
加入快审,优先展示

加入VIP

发表评论

  • * 评论内容:
  •  

精彩评论

  • 无任何评论信息!
最近提交超过1000个站点
最新快审入驻
快速审核方式: 加入VIP会员 申请快审
X
提交站点
提交文章
提交小程序
提交公众号

Warning: Cannot modify header information - headers already sent by (output started at /www/users/HA681067/WEB/app/home/common.php:24) in Unknown on line 0