最近科技小编在思考有关搜索引擎排序的一些内容,有一些不成熟的想法,今天就拿出来分享讨论一下。
搜索引擎(这里以谷粉搜搜的设计为参考)在页面爬行,正文内容提取,分词建立倒排索引以后,将对检索关键字进行分词,并提取出词性为名词,字符串等比较重要的词到分词索引库取交集,即会得到一个包含具备基本相关度的页面文件集合,之后将会进入页面排序部分。
在页面排序部分,有两个部分是特别重要的,一个是页面在搜索引擎里面的权重分数,还有一个是重要词性的分词出现在页面的位置(标题,有效正文的最开始区域等),我认为这两个部分的分数基本上决定了大体的排名位置,其中页面的权重分数所占的比例会更多(偏向于认为是最大,并且比其他因素都大很多),检索词的其他词性如形容词,介词等分词的完整匹配出现会获得一小部分的加分。
页面的权重分数在不同的搜索引擎倾向会有明显的不同,总体来说,都和链接关系密切相关,链接关系分为相关性有效链接(导出链接的网站内容,锚文本,目标网站高度相关)和高信任度链接(来自大网站,gov,edu等高PR值网站),这两种链接具体可以参考Hilltop算法和Trustrank算法,其中Hilltop算法想法非常有趣,在该算法的一个专利版本里面提到了对最初的搜索结果页面集合再次进行链接关系相关性计算,以进一步精确在该检索词范围权重最高的页面。
页面权重分数还会涉及到域名的建站时间因素(这里我认为不仅仅是因为链接存在的时间因素),在百度的算法里,主域名的权重对子域名和页面的权重影响也会比谷歌大很多。
在这些步骤完成后,会进入最后一个反作弊模块,处理掉那些作弊积分超过一定程度的页面以及在沙盒里的页面,然后得到最终的排序结果。
在考虑这个搜索引擎排序算法的时候,基本上就可以确定大部分的页面是没有机会在搜索引擎里面获得展出的,这是因为权重在搜索引擎的算法里占有高度优先级的原因。
在可以获得的数据里,我认为曾经的谷歌PR值是最接近能反映页面权重的数据,虽然已经停止更新一年了。爱站,CHINAZ等第三方网站提供的百度权重是基于从百度引导过去的流量为标准进行计算的结果,虽然能一定程度反应域名的权重,不过这种以结果论的方式来说明问题不太准确,以提高页面权重的目标来说,这些第三方数据不能作为标准。
因此,做网站不应该是追求大量采集内容(就像许多人拼命来采集谷粉搜搜的内容一样),或者勤于天天更新简单的原创,采集的内容和简单的原创如果没有人分享,不能吸引高质量的链接,页面的权重就不会上升,就得不到排名的机会,同样也吸引不了用户。
深圳网站建设公司科技总结:,做网站应该更新有价值的原创,能够吸引来自许多网站的正文相关链接,或者做出有价值的工具网站让更多人使用分享,获得许多高信任度的链接,只有这样,在搜索引擎排序最重要的权重分数排序阶段,获得更多机会。