蜘蛛页面抓取异常,如何解决?

(0)
主页 > SEO > SEO技术 > 阅读: 作者: CRAZYSEO 发布日期: 2019-03-11 16:01:11
SEO诊断、外包、顾问业务 请联系QQ:3534790242
对于SEO人员来说,了解页面是如何被搜索引擎收录的,以及搜索引擎的收录原理,都是有好处的...

  

对于SEO人员来说,了解页面是如何被搜索引擎收录的,以及搜索引擎的收录原理,都是有好处的!下面就来和小编一起了解一下,蜘蛛页面抓取异常的一些问题...
  
  1、各类返回码代表什么?
  
  搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。
  
  比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。
  
  有时候,会返回503,503返回码代表网站临时无法访问。可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI处理。如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除。这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。
  
  返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。
  
  在返回码中,有一类需要格外注意的就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。
  
  返回码301的优化写法如下:
  
  (1)创建一个htaccess.txt文件。
  
  (2)在htaccess.txt里写好返回码30l的跳转信息。
  
  假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息:
  
  RewriteEngine on
  
  RewriteCond%{http_host}abc.com[NC]
  
  RewriteRule^(.*)$ http://www.abc.com/$1[L,R=301]
  
  (3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。
  
  需要提醒的是:目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此在考虑htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。
  
  2、信息无法被抓取到如何解决?
  
  (1)采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。
  
  (2)采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。
  
  蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。
  
  HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。
  
  HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。

相关文章

QQ咨询