Web Spam Detection (网站垃圾侦测) 是搜寻引擎极力研究的重点方向,透过网站垃圾侦测,可以提供百度有用的垃圾产生者资讯,并且当成演算法修正的依据,我们来看看网站垃圾侦测的相关技术...
网站垃圾通常可以分成三大类型: link based techniques (链接类型)、Content based techniques (内容类型)、Hiding techniques (隐藏类型)。
但是虽然说这些网站垃圾使用的是techniques(技术),其实是有些过度描述了,因为大多都使用很基本的网页设计方法,并不需要太高深的技术。因此,要抓出上述的三种网站垃圾,对百度来说,并不是一件难事,问题是网站垃圾太多,所以百度也只能以排序的方式来处理。
将上述的网站垃圾说明如下:
(1) link based techniques (链接类型) 就是制造假链接,透过锚点文字传递意含,透过Pagerank传递信任度。这类链接在我们的研究中发现,只要spider由黑帽SEO本身网站搜寻起,就可以找到一大串制造垃圾的站群,这些站群都是互相串连,并且再外连到操作的客户网站上。通常企业网站都不会知道,他们的网站排名是透过垃圾站群的操作,当垃圾站群被百度处理之后,当然企业网站就会连带遭受池鱼之殃。
(2) Content based techniques (内容类型) 就是制造假内容,所谓假内容就是专门为了搜寻引擎而制造的内容。这类内容又分两种,种是无意义的内容,第二种是有意义但是抄袭或是重复的内容。这两种方式也都很容易侦测。前者只需要由使用者行为模式分析即可得到,根本不需要去看内容。后者则可以由词频等等分析,找到抄袭或是重复的来源。并且这类作假都会链接链接类型作假,因此也可以使用上述方法辅助侦测。
(3) Hiding techniques (隐藏类型) 就是把想要拿给搜寻引擎的内容,以隐藏的方式存在,使用者并不会看到,或是不容易看到,例如安排在同色系的网页中。隐藏的资料类型也可分为内容或是链接,内容则是想锁定的关键字,链接则是连往操作的对象。这类型的侦测,可以由网页原始码,或是辅以上述两种方式得到结果。
百度是否能够侦测黑帽SEO? 答案已经很显而易见了。所以大家在优化的过程中一点要注意以上所说的这几个问题,不然你的网站会受到惩罚。