您现在的位置是:首页 > 站长新闻站长新闻
【白皮书解读搜索引擎的工作原理】建库
2021-01-21【站长新闻】人已围观
简介本文解读的是:《百度官方课程抓取建库》1、spider抓取系统2、spider抓取指标一、spider抓取系统百度蜘蛛抓取建库是个极其复杂的系统工程,光是抓取系统就分为链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统
本文解读的是:《百度官方课程抓取建库》
1、spider抓取系统
2、spider抓取指标
一、spider抓取系统
百度蜘蛛抓取建库是个极其复杂的系统工程,光是抓取系统就分为链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
如果不好理解的话,你可以理解为一个抓取程序,分为以上几个功能模块,功能相互配合完成抓取程序,我个人分析,根据百度蜘蛛的情况来看,目前百度抓取的IP段在220,116段,116开头IP在于阳泉(李彦宏老家),因此我们不妨推测出这样一个观点,我们看到一个个的蜘蛛IP,就是对应的这些电脑主机,而这些电脑上就装着抓取程序。
二、spider抓取指标
我们按照蜘蛛抓取流程来说,一个蜘蛛爬到网站后,首先去访问robots.txt的协议文件,遵循协议中的规则,该爬哪里不该爬哪里,然后通过抓取后通过抓取返回码去做下一步动作,比如抓取a.com/123.html,返回码是404,那么此条信息就告诉百度这条信息已经失效,如果此条已收录,就从库中删除,同时蜘蛛再次访问url也不会抓取此链接。在百度蜘蛛抓取的过程中,如果你实时监测蜘蛛的时间就会发现一点,有的站内蜘蛛爬取很频繁,有的站内很久才有蜘蛛访问,造成这种结果有两个原因,一个是百度服务器任务处理采取分布式处理,所以蜘蛛抓取通道有阻塞,因此有时间上的差异,排除通道阻塞,站内内容多少和外链引入蜘蛛也是一个影响蜘蛛爬取的一个关键因素。
spider在抓取页面过程需判断页面是否抓取,没有抓取就会被放到抓取序列中处理,已抓取就会对比库中是否有同样并归一处理。
在公认的spider指标中,有四大指标:
1、网站更新频率,更新快多来,更新慢少来,这也是为什么很多站一天更新上万篇的原因,一定程度上可以直接提高收录几率。
2、网站内容质量高低。优质内容爬取频繁,低不爬或少爬。什么是优质内容?之前一篇文章有提到过。
3、服务器稳定、不卡顿和打开流畅。
4、站点评级。(已实锤不是权重,而是更高级的站点评级)评级是动态参数,是配合其他因子进行算法计算到阈值变化的变量。评级会影响网站的收录和排序。
很赞哦! ()
相关文章
随机图文
-
seo专员每天的工作有哪些_seo排名是什么
SEO前线发现对于很多人还是不清楚seo专员的工作内容,包括企业hr甚至都不是特别的清晰,我们经常看见SEO专员的招聘职位,但是很多公司都没有SEO专员,那么seo专员每天的工作有哪些?SEO专员每天都干嘛? 很多刚接触seo的伙伴而言,肯 -
新手如何操作京东店铺
首先,题目优化,到数据罗盘,类目搜索进行找词,不要堆积关键词,就直接到淘宝天猫搬题目,进行取其精华.注:商家罗盘需要开通高级版才能看到更多数据。其次,坚持,个人觉得很重要,尤其一定是在推广单品,如果很有潜力的款,不要放弃,一定要坚持推,不要因 -
SEO优化的四个误区
现在网上对seo优化知识有很多误解,很多教程都包含了很多对SEO知识点的误解。这些误区对于初学者学习SEO绝对是致命的。下面介绍一下“SEO优化四大误区”。四大SEO优化误区,介绍以下几点:第一,内容一定要原创。&ld -
site带www和不带www,收录差距很大原因!
在做SEO的过程中,对于一些刚开始从事SEO行业的初学者,我们经常会遇到这样的问题:你的网站利用site命令查询的时候:带www的域名和不带www的域名,都存在一定收录,并且收录的情况还是存在一定差距。比如:①某一个情况的收录量异常高,而另