搜索引擎是如何进行网站的抓取

一、蜘蛛是什么

我们把搜索引擎比喻无边无际的网络海洋,有海量的信息。“蜘蛛”就是计算机的的一套程序,专门来抓取检索互联网上的信息。“蜘蛛”也叫爬虫和机器人,就是一套信息抓取系统。互联网就像一张蜘蛛网,像“蜘蛛”一样在互联网上反复地爬来爬去,不知道累的,所以叫作网络蜘蛛。

二、搜索过程

当我们在搜索框中搜索一个关键词的时候,输出的结果搜索引擎是经过一些很常复杂一个过程才能展现给用户,一般都需要经过四个过程:抓取、过滤、建立索引和输出结果。当我们在搜索引擎看到的只是一结果,搜索根据各种算法,把某个关键词的展现在首页的第一位。

搜索引擎是如何进行网站的抓取-1

三、收录过程

收录过程就要经过上面所的四个过程:抓取、过滤、建立索引和输出结果。

1、抓取

网站有没有被收录首先要看一下网站的蜘蛛访问日志,看一下蜘蛛有没有来,如果蜘蛛都没有抓取那是不可能被收录的。收录的前提是要搜索引擎要来抓取,这个可以从网站的IIS日志里面可以看得到,也就是服务器日志,如果没有来呢?那么就主动向搜索引擎提交,搜索引擎会派出蜘蛛来抓取网站,这才有可能被收录。

2、过滤

网站被抓取了并不代表一定会被收录这个不一定。蜘蛛来抓取了会把数据带回去,放到临时的数据库中,再进行过滤。过滤掉一些垃圾的内容或者是低质量的内容。看你的信息是不是采集,在互联网上有大量的相同信息,它不会把你的信息建立索引。有的时候我们自己写的文章也不会被收录,那都是我们一个字一个字搞出来的,那难道不是一篇很好的原创吗?的确是一篇不错原创内容,为什么有时不会被收录呢?那就低质量的内容,低质量的内容看的不是你文章写得有多么的精彩,那要看你文章是不是用户所关注的,是不是用户所需求的,在前也有提到内容的添加技巧。

3、建立索引与输出结果

通过一系列的要求,符合收录的内容之后建立索引,建立索引之后这个时候就是被收录了的。当用户在搜索关键词就会输出结果,输出的结果排在第一的,是有搜索引擎内的各算法比如一些外链的投票,匹配是否相关等等的一系统的算法,把你的页面排在前面。在这里收录还有一种情况,收录只经过抓取再到输出结果,中间的两个过程是没有经过的,就是说抓取到马上就收录的。这是在什么情况下呢?那就是具有很强的时效性的内容,比如新闻类的,它就具有很强的时效性,比效今天发生了一件特大事件给大部分的用户所关注,所以所发布信息给抓取到了,搜索引擎会第一时间展现给用户。这样信息一过用户就不会再去关注了,以后就没有太大的价值,在里就有一个问题,用户所关注度过了之后,搜索引擎会从重检索这一类内容,如果是垃圾内容,低质量内容还是会给搜索引擎过滤掉的。

搜索引擎是如何进行网站的抓取-2

四、蜘蛛抓取的两种策略

1、广度优先

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这一种抓取方法速度是很快的,这是最常见的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

2、深度优先

深度优先是指网络蜘蛛会从起始页面开始,一个链接一个链跟踪下去,处理完这条路线之后再转入一下个起始页,继续跟踪链接。这一种方法抓取速度会比较慢一些,有可能抓着抓着就找不到回到起始页的方向。这两种方法只是蜘蛛抓取的策略,只作一个了解就可以了。

发表评论

Crypto logo

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus cursus rutrum est nec suscipit. Ut et ultrices nisi. Vivamus id nisl ligula. Nulla sed iaculis ipsum.

Contact

Company Name

Address