搜索引擎工作全过程揭秘
作者:qebang 时间:2015-08-25 11:02
企帮商学院导读:对于个人站长来说最为关注的不过就是网页的收录,然而搜索引擎的工作过程又十分复杂,今天深圳网络营销学院的小编跟大家谈下我所了解的百度蜘蛛是怎么实现网页收录的。
更多
网络营销资讯请访问
企帮商学院。对于个人站长来说最为关注的不过就是网页的收录,然而搜索引擎的工作过程又十分复杂,今天
深圳网络营销学院的小编跟大家谈下我所了解的百度蜘蛛是怎么实现网页收录的。
蜘蛛爬行抓取
当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。比如蜘蛛来到某个网站它会先读取根目录下的robots.txt文件,如果没有禁止搜索引擎抓取,那么蜘蛛就开始针对网页上的链接,进行逐一跟踪爬行。
信息过滤
蜘蛛在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。所以经常会有些低质量的网页不被收录。
建立网页关键词索引
当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。
索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。
输出结果
当用户搜索了某个关键词之后,就会通过前面建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,通过引擎对网页综合评分计算以后,根据网页的评分来决定网页的先后顺序排名。
(责任编辑:qebang)