什么是网站LOG日志你了解吗?
根据Aseo诊断客户个案例综合分析,其中有%的公司或者个人站长,并不知道什么是网站的LOG日志,还有%知道网站LOG日志,但是却从来没有做过分析的。
事实上你知道吗?
网站的LOG日志就是站点的晴雨表,通过LOG日志的查看,可以精准的了解到网站目前存在的非常多的问题,而放弃了LOG日志的分析,网站规模越大的网站,则意味着放弃的机会也就越多。
作为网站负责人,每天看着流量不增长,是什么感受?煎熬!流量为什么不增长?你所理解的SEO还只是做外链,发文章吗?如果是这样的话,那么真的只能说是活该了!
网站有没有问题,LOG日志文件,精明的站长和企业都不会忽视他的价值,通过LOG日志的检查,来发现那些隐藏在背后的刀芒,今天Aseo项目经理贺贵江者就带大家走进LOG日志的世界。
一:查看目录抓取概况
目录抓取,可以准确的的查看到不同的蜘蛛爬行过哪些目录,这些目录有抓取的必要吗?在SEO上会有产生的结果的可能吗?如果任由抓取,只会浪费蜘蛛给予的抓取配额,和降低对网站质量的认可程度。除此之外,通过蜘蛛对目录的抓取频率,还可以看住一个目录的重要性和薄弱点,如果善加利用起来,让其实现更高和更平衡的抓取频率,对SEO上的帮助也是极大的,不过真正能把控这一点的人只是极少数罢了。
二:查看页面抓取概况
页面抓取可以准确的查看到蜘蛛爬行的每一个页面,我们通常会见到,有些蜘蛛抓取的页面居然是网站中前台看不到的,比如:有人恶意提交一些不存在的动态链接,如:www.xxx.com/?www.qq.com这种类型的链接。或者说,网站虽然做了伪静态或者静态的处理了,但是蜘蛛为什么抓取到动态链接了呢?这种都是可以通过LOG日志来直接看到的问题,某个页面抓取频率越高,通常代表这个页面更有价值。
如果你想优化的页面,抓取频率偏低,那么就要为其增加适当的曝光度,来达成你想要的结果。
三:查看状态码信息
状态码分为两种,一种是蜘蛛状态码,另一种是用户状态码,通过蜘蛛状态码可以准确的查看到网站是否存在抓取问题。例如:代表的是错误页,、代表的是重定向,还有一些:、、等状态码,值得说的是:除去状态码,出现其他的状态码都是应当值得注意的,其中最容易出现的可能会是X以及、、、这几个状态码,那么这些状态码是什么含义呢?
A,X状态码,X可以是也可以是、、等数值,但是这种状态码如果出现,通常的问题就是“服务器异常”,少量偶尔出现没有任何问题,但是如果大批量的出现,或者连续多天都有此类型的问题,务必要解决,否则%对网站权重造成影响,甚至直接导致站点降权。
B,X状态码,这种页面基本上代表的是页面无法打开了,可能是权限问题,也可能是页面被删除的问题,我们最容易见到的是这种“死链接”如果大批量出现,务必要在百度资源平台进行死链接的主动提交才可以。
C,、状态码,这种可以单独理解为“跳转”一个页面跳转到另一个页面就会产生这种情况,如果站点近期没有做过特殊操作,却出现了大量此类型链接,务必排查源头,将其处理为正常的状态码才可以。
D,状态码,量少无任何影响,如果每天出现几百条或者更多,务必进行处理,大批量的状态码%造成网站降权。
上面说的是一些LOG日志工具都有的功能,而接下来我们再说一下一些进阶类型的东西:
A:如果想要更多有效的着陆页被蜘蛛更多的抓取,那么请进行结构内链的完善,提升需要展现页面的曝光率。
B:不希望蜘蛛抓取那些没有优化意义的页面上,那么robots.txt上来进行封闭,比如一些评论页、留言页、或者是不可能出现排名的页面。
C:“蜘蛛陷阱”无止尽的循环,浪费抓取配额,通过页面抓取,都可以直观看到,常见的通常是“三个条件”的筛选链接比如,项目/城市/县/这样的个条件的筛选。
D:曝光力度够了,蜘蛛一样不抓取,只能说页面价值太低,需要进一步优化,页面价值太低,往往是不同的页面有用的文字太少了,页面区别性太小了造成的。
E:我们希望每个页面的下载时间足够快,可以在有效的时间内抓取更多的页面。
F:不是所有的蜘蛛都是真的蜘蛛,要学会查看蜘蛛是否为“采集”和“模拟”,如果出现一些如www.xxx.com/zip 这样的蜘蛛访问形式,或者是www.xxx.com/admin/conifg这样的蜘蛛形式,十有八九都是虚假蜘蛛,正常的蜘蛛不会抓取不存在的目录,有人恶意在扫描网站。
G:分析每天的蜘蛛,可以查看上升或者下降的趋势,明显变化,网站会出事的,当然了这个也可以在百度资源平台的“抓取频率”上来进行查看。
H:如果网站规模较大,服务器经常峰值,或者成本太高,那么降低或者封禁不会带来流量的蜘蛛,以减少服务器压力,对大型网站很重要,比如:雅虎、有道、微软,这些乱七八糟的蜘蛛,作用都微乎其微。