|
Google技术搜集网络的大量信息,在当今时代变得愈来愈突出,对于一个谷歌爱好者(志愿者),也只是“不求甚解”,
虽然对Google技术了解不是很彻底,但是分析了解Google蜘蛛对文件的处理方法和研究其搜索与更新策略,是我们所需要的。
任何一个网站只要内容更新+外链都能看到Google对该网站做出相对应的分析,这样就增加对页面的权重,了解Google技术
我们根据原理来进行Google优化(业余时间还是得学学相关技术)。
一 Google蜘蛛“爬行”原理:
所谓的网络蜘蛛也就是Google蜘蛛方法就是通过URL来连接网页。它的原理就是通过一个始起连接来搜寻网络信息,
同时也抓取网页上的链接,并将抓获的信息作为下一个搜寻的地址就这样循环渐进,直到达到某个停止条件后才会停止。
停止条件的设定一般是以时间或数量为判断,可以通过链接的层数来约束网络蜘蛛的爬取。站长工具中的Google蜘蛛模
拟器貌似它就是这个原理。
二 Google蜘蛛和网站的回话:
当Google蜘蛛爬取到网站中通常会去检索一个文本文件Robots.txt,一般存放在网站的根目录下。它是与网络蜘蛛交
互时用的专用文件。而且这个文件是与Google蜘蛛进行交互的重要工具,但是蜘蛛是不是都要遵循站长对它的指挥?其实
蜘蛛是否遵循还要看蜘蛛自己的出身,素质高的会遵循规则,反之则不遵循。对于交互性的SEO手段,我们了解了就可以
针对性的做出符合Google蜘蛛喜好的网站地图。站长经常使用的页面Meta字段也是Google优化技术,它一般出现在文档
的头部,很多站点大相径同只是写下允许Google搜索的字样。Meta字段蜘蛛允许在没有读取到全部文档的情况下就了解
文档的相关信息,可以避免将无效的网页取下来造成无谓的浪费。
三 Google蜘蛛文件处理:
(一) 二进制文件处理
网络中除了HTML文件和XML文件外,同样也有大量的二进制文件,Google对二进制处理的方法是单独处理的方式,
其对内容的理解完全需要依靠二进制文件的锚点描述来完成。什么是锚点?锚点描述通常代表了文件的标题或是基本内容,
也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在。
(二) 脚本文件的处理
网页中的客户端脚本,当网页加载至读取到该脚本,Google往往会直接省略对它的处理。但是由
于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采用
另外一种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到一
个文档中,采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。
(三) 不同文件类型处理
对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的Google技术,
这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl,pdf等各
种文件类型,这也是属于Google优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘蛛通
常是采用插件的方式来处理。
|
|