搜索引擎优化、SEO诊断、内容建设欢迎联系QQ:1082484
搜索引擎的存在是为了发现、理解和组织互联网内容,以便向搜索者提供最好的答案和结果。作为一名SEOER,你真的了解搜索引擎的原理吗?
1、搜索引擎的工作原理
1)爬行:在互联网上搜索内容,找到每个页面URL及内容。
2)索引:存储和组织在爬行过程中找到内容。页面只有被搜索引擎存储在索引中,才有可能被搜索显示出来。
3)排列:提供最能回答搜索者查询内容,以最有帮助搜索结果页面进行排序。
2、什么是搜索引擎爬行?
爬行,是搜索引擎派出一组爬虫或蜘蛛寻找新页面和内容。它可以是一个网页,一个图像,一个视频,一个文件等。但不管格式如何,它们都是通过链接发现的。
爬虫从获取几个网页开始,然后跟踪这些网页上链接找到新URL。通过链接爬虫可以找到新内容并将其添加到索引中以便在搜索者寻找该URL上内容与之匹配信息时被检索。
3、什么是搜索引擎索引?
搜索引擎索引是个庞大的数据库,包含了他们发现的所有内容,并且认为这些内容足够好,可以为搜索者提供服务。
4、什么是搜索引擎排名?
当有人搜索某个关键词时,搜索引擎会检索他们的索引,提供最相关内容,希望能够解决搜索者查询。这种按相关性排序的搜索结果成为搜索引擎排名(排序)。一个网站排名越高,搜索引擎就越相信该网站与查询相关。
当然,你可以阻止搜索引擎抓取你的网站或网站部分内容,大部分搜索引擎都遵循robot协议。
5、搜索引擎能找到你的网站吗?
确保您的站点被爬行和索引是在搜索结果出现的先决条件。首先要做的是尽可能多的页面被收录。如果您的网站或页面没有被索引收录,那么可能是以下几个原因:
1)您的网站是全新的,还没有被爬行。
2)您的网站没有外部链接,爬虫没有发现您的网站。
3)您的网站导航结构使爬虫很难有效爬行。
4)robot.txt文件文件阻止搜索引擎抓取页面。
5)网站因为垃圾外链受到搜索引擎惩罚。
6、robot.txt
如果您的网站是全新的,可以通过向搜索引擎提交URL,被搜索蜘蛛尽快发现您的站点。
该文件位于网站根目录,并建议搜索引擎哪些可以抓取或不被抓取。
温馨提示:
如果爬虫蜘蛛找不到网站robots.txt文件(http状态码为40X),它继续爬行站点。
如果爬虫蜘蛛找到站点robots.txt文件(http状态码为20X),它会遵守建议,并继续爬行网站。
如果爬虫蜘蛛没有找到20X或40Xhttp状态码(通常是服务器错误),则不会爬行您的站点。
7、关于外部链接
目前为止,外部链接还是搜索引擎排名算法中最为重要的部分。关于外部链接请参考以下说法:
1)权威人士说你好,才是真好。(注:获取权威站点单向链接)
2)自己夸自己好,有可能好。(注:自己网站站内链接)
3)有污点的人说你好,并不好。(注:低质量外部链接)