认识搜索引擎的工作原理

  • 作者: admin
  • 发布日期: 2013-08-01 18:42:16
  • 点击:

搜索引擎的主要工作包括:页面收录、页面分析、页面排序及关键词查询。

一 页面收录
  页面收录指搜索引擎通过蜘蛛程序在互联网上面抓取页面进行储存的过程,它为搜索引擎开展各项工作提供数据支持。
  这里所说的蜘蛛即为搜索引擎的漫游程序(Spider系统程序),也叫搜索机器人或者网络蜘蛛;之所以叫它机器人,是因为Spider程序是一个非常智能的,具有分析、判断能力,如可以判断出网页是否进行了优化作弊,给网页评级等。

  搜索机器人通过网络上的各种链接和IP地址遍历互联网上的WEB空间,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料;它为保证采集的资料最新,还会回访已抓取过的网页。

二 页面分析
    由分析索引系统程序对网络蜘蛛采集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 我们平时看到的搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
 

三 页面排序
    当用户输入关键词搜索后,搜索引擎结合页面的内外部因素计算出页面与某个关键词的相关度,从而得到与该关键词相关的页面排序列表。由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

四 关键词查询
    搜索引擎接受来自用户的查询请求,并对查询信息进行切词及匹配后,再想用户返回相应的页面排序列表。这就是我们平时看到的搜索引擎界面。如Google.com、baidu.com等。


 

网站备案所需要提供的资料清单

目前,国内每个网站都必须具有信息产业部批准的备案号才能正常开通,否则只有选择国外的服务器。