点击率、引用率和谷歌数

04-12Ctrl+D 收藏本站

关灯 直达底部

一个名人的流行程度,现在经常用这个名人在网络上出现的频率来判断。在西方,比较权威的搜索引擎是谷歌(Google),又译成古狗;在中国,人们常用百度。我过去为了好玩,专门搜索过提及李宇春的网页数,百度的结果是近1000万,谷歌的结果是550万,这还是2008年一月份的事。同样,每个网站也追求点击率,有的网站纯粹是出于商业考虑,有的网站则完全是追求知名度而已。新浪博客上的老徐(徐静蕾)博客的点击率已经超过2000万,那里的名人博客似乎都在竞赛点击率。

既然搜索数和点击率如此重要,不免有人要出来研究如何更加科学地计算有效搜索数。我的一个过去研究物理的朋友现在就在研究这个。谷歌自己早在1998年就研究出一套办法,叫作谷歌网页排名算法。一个网页的排名不仅仅靠被链接的次数,还要看链接这个网页的那些网页自己的排名,所以,这是一个相互纠缠的算法。

“有些人是受欢迎的却不一定有声望,有些人有声望但受欢迎的程度不够。举例来说,一个侦探小说作家可以卖出很多书,却不一定能得到文学批评家的尊重。相反,一个诺贝尔文学奖得主在文学专家们眼中的地位很高,但永远上不了纽约时报的畅销排行榜……”2008年一月份出现一篇研究如何将谷歌算法用到评价学术刊物影响因子的学术文章,以上是这篇文章开头的一段话。汤姆森科技信息集团一直通过计算一个刊物上发表文章的平均引用率来确定该刊物的影响因子,这个影响因子准确地说只是反映了刊物的受欢迎的程度。

学术文章的引用率在西方一直是一个评价一篇文章影响力的重要依据。在中国,引用率引起大家的注意,并成了评价一个研究者成就的指标是20世纪末的事情。一方面,这代表了进步:一个研究工作如果没有什么影响,当然就不会很重要;另一方面,过分强调引用率也不行,会带来许多负作用,例如,年轻的研究者会特别注意流行的研究方向和问题,完全为了多挣引用率。加之,不同领域中同行的多寡不同,同行引用习惯不同,引用率很难作横向比较。文小刚(麻省理工学院的一位教授)说过一句话,引用率只反映了一般研究者对该项工作的评价,而一般研究者平均说来并没有太多的超前意识。中国国家基金委的一些人也意识到只强调引用率的负面效果,但到目前为止也没有更好的办法。不过,用引用率作参考还是一件好事。我在台湾待过,那里的许多领域从来不看引用率。

谷歌网页排名算法可以用来取代普通的引用率,避免文小刚说的缺点。这个算法的主要想法是,评价一个演员在演艺界的地位不但要计及有多少演员认可他,还要看认可人自身的地位。这样,演员们的地位指数形成一个互相关联的系统。在具体计算时,可以假定所有演员的影响程度一样大,然后通过计及每个演员受欢迎的程度并反复叠代,最终可以得出这些演员的真实声望。例如,喜欢超女李宇春的粉丝中有很多既没有影响也没有品位的人,他们自身的影响因子等于零,他们欣赏李宇春不能用来计算李宇春的影响因子。

李宇春的粉丝数是流行度(popularity),不同于流行度的是声望(prestige)。好莱坞一部电影的票房是流行度,能否获得奥斯卡的提名就要看声望了。同样,引用率是流行度,而谷歌数是声望。我们现在经常宣传的《科学》(Science)、《自然》(Nature)这些刊物的影响因子大,也不过是流行度高而已。政府有关部门在过去数年不遗余力地强调这些杂志的重要已经在年轻人中造成不好的影响。如果你去各大学BBS的科学版看看,经常看到宣传这些杂志上发表文章的帖子,不是去祝贺谁谁完成了一篇高水准的文章,而是去祝贺谁谁又在Science上发表了一篇文章。可喜的是,我昨天去参加一个项目答辩的预演,当答辩人提到这些杂志时,一个人站出来说,现在再强调这些会引起专家们的反感。

说到《科学》和《自然》,我想起我们这行的《核物理B》(Nuclear Physics B)。这刊物在我做学生的时候是粒子物理中影响最大的,那时不论是老师还是学生,如果能在《核物理B》发文章就牛大发了,如果能发表几篇文章,就成大师了。现在的情况是,如果在《科学》或者《自然》上发表几篇文章,也成大师了。不知道这样的枯木大师遇到黄药师的时候(黄药师的名言:枯木这点微末功夫,也称什么大师?),还谈不谈《科学》《自然》?

四月份有一篇研究工作将谷歌数用到《物理评论》(Physical Review)系统,他们的样品是这个系统在1893年至2003年之间发表的35万余篇文章。他们发现,谷歌数排名第一的是一篇首次在粒子物理中引入某个参数的文章,这篇文章的引用率排名仅仅是第54名。而引用率最高的一篇文章谷歌数排名第三。排名在第十的文章在《物理评论》系统中的引用率只有100多次。请注意,引用率达到100次的文章虽然是好文章,但距离引用最多的3000余次要差很多。谷歌数排名前十的文章的作者除了少数人外,都获得过诺贝尔奖。

现在,按中国的许多部门规定,必须以SCI统计的引用率为准,只有大图书馆才能得到这些统计,而且肯定不准。谷歌数虽然更加客观,但不切实际,谁来为你做这个烦琐的计算呢?