seo_网站搜索引擎优化-石家庄利群网络营销推广

PageRank算法与PR值传递规则

佚名

这是一篇关于PageRank算法的纯理论研究文章。前半部分阐述了PageRank的基本理论,后半部分提出了一些发现。另外,首先需要强调的是,这些对PageRank算法的抽象研究,主要是为了更好的在站点中构建链接,基本与工具栏PR(也就是常说的PR)无关。

还有,SEOer了解PageRank算法很重要,因为它是最经典的链接算法之一。虽然博客读者可能有不同的层次,但还是想保证更多的人能看懂,所以尽量让文章更容易理解。我想说的是,虽然长,但是值得一看。

二、PageRank概述

PageRank是基于随机冲浪模型提出的,可以看作是模拟访问者访问网站的情况。当一个网页导入的链接比较多,并且那些链接也处于用户点击率比较高的位置时(比如正文后链接好,页脚链接不好,这也很有可能在PageRank算法中计算),那么被用户浏览的机会就比较多,所以在搜索引擎的视图中权重会比较高。

PageRank算法的随机冲浪模型比“投票”更容易理解。一页一面连接到另一页,视为一票,票数多的页面权重更高。此外,每页的投票权并不平等。源页面本身的权重越高,其投票权越大。因此,如果一个页面要有高权重,它必须有足够的高质量的导入链接。

PageRank算法的数学要求很高,所以本文只从最简单的角度写尽可能多的实际东西。

第三,PageRank的产生和传递

初始的PageRank值是由网页生成的,每个网页天生就有一个小PR值。另外,搜索引擎可能会对第一次发现的域名的首页给出较小的PR值,这与改进的PageRank算法有关。

PageRank的传输是从那些页面开始的,给页面85%左右的PR值,让连接到页面的页面分享85%的PR(页面本身不会丢失PR)。让我们用图表的方式更简单地表达它。

四、PR值传递简单示意图

首先假设首页PR分100,栏目页85,内页72。取值随意,主要是为了方便区分。为了便于理解,这个示意图也很简洁,没有考虑内页、栏目页接回首页等问题。

图中的第二行和第三行分别代表两轮计算,但实际上需要更多的时间来实现数值稳定性。当然,这只是为了举例说明,两次就够了。

在第一轮计算中,PR的输出是从每一个带有out-link的网页中计算出来的,PageRank值分别针对栏目页面和内页获得一次。但是内页得到的PageRank应该不只是这些,因为在第一轮计算中,连接到它的列页得到了更多的PR。此时进行第二轮计算,内页此时获得更多PR。

实际上,因为链接结构要复杂得多,图片中内页的总PR不太可能比第一页高,因为内页还是会连接回第一页。当数值经过多次计算趋于稳定时,每页的分数已经很大了,但是两者之间的比例是稳定的。

5.PageRank算法的猜想

从上图可以发现,PR传递中很重要的一点是“层”的概念(比如三层结构一般由首页、栏目页、内页组成)。但不管每层有多少页,他们总是拆分那层的PR值。这里你可以把一个层想象成一个节点。

P.S. node是一个点,可以用来简化概念。SEO中的页面和索引词可以看作节点。比如下面的两层标准结构,你可以闭上眼睛,把首页和内页想象成两个点,然后有两个箭头(弧线)把它们连接起来,也就是说首页连接内页,内页连接首页。

请看下图。首先,你不用太在意价值。才明白意思:

上述数字涉及一些数学上简单但相当复杂的计算。计算方法和第一张图一样,但是也考虑了内页和首页的链接等。,一共算了三次(据迪达说,谷歌迭代三次,百度只算一次。。。)。

可以发现,层数越多的链接结构,总PageRank值越多。但问题是大部分额外的PageRank都在列页中。对于某些类型的网站,列页面不一定要有很高的PR(但大型网站必须在列页面中提供足够的PR,供爬虫频繁抓取)。

层多的结构最明显的缺点就是在于内页第一层的总PR。当层数较多时,以权重(2)给网站首页大量PR(之所以给首页PR是因为实际情况下更容易得到外链),它能增加的PageRank值很少。

如果这个理论推断没有错的话,可以得出结论,当多层网站的内部页面没有优化的时候,排名很可能大部分依赖于域权限,而很少依赖于页面的权重。如果网页的权重可以一起使用,那么那些大网站的流量就有可能得到一个飞跃。

而如何提高内页的权重,首先可以按照这个思路尝试其他的链接结构。此外,如前所述,连杆的位置可能会影响重量的传动比。把不重要的链接放在会被搜索引擎去噪的噪声区域可能会好很多。

对于小网站,我们还可以发现很多博客都是两层的,可以很容易的最大化内页的权重。

第六,随想

虽然有些数据是简单的通过理论推导计算出来的,应该有一定的参考价值,但可能还是存在一些问题。首先,PageRank的计算其实要复杂得多。这里使用的一些计算方法已经是最简化的了,可能和完整的算法不太一样。另外,PageRank算法经过十几年的不断改进,可能会带来理论和实践上的差异。比如多层链接结构下内页PR的缺点可能就没那么明显了。

当然有一些证据支持这些猜想,不然也就没必要这么麻烦了。比如很多人认为博客文章的权重比较高;大型网站的SEO流量也很多,有的不好,差别很大;搜索引擎经常说,从首页到内页的点击量要尽量小。

但由于结论的不确定性,可以作为提高网站SEO的参考,但最好不要照搬。

抛开这些,必须注意的是,PageRank算法本身在SEO中所占的比例并不高,也不是所有的东西都可以拉在“权重”这个词上。天津SEO博客曾经讨论过,SEO中的细节了解的越多越好,但真正做到的时候,还是要从整体的角度考虑。

还有,本文大部分思路适合百度,但最终结论可能不具有普适性。因为百度可能只决定PR一次,这个时候价值还远远不稳定。所以百度似乎更注重链接的数量而不是质量,似乎也找到了一些依据。

本文的计算方法也适用于尝试一些特殊的链路结构,也可以考虑寻呼等问题,以获得更准确的结果。

了解搜索引擎原理的一个主要好处就是对同一问题的理解深度可以强很多。PageRank也一样。有人认为关注环节的数量和质量就够了,其实可以深入。本文的研究应该不深入,但由于能力有限,很难进一步研究。

上一篇:没有了

下一篇:seo排名优化提高网站流量