天津到厦门有高铁吗?:第九梦网站搜索志(lkuu.com)

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 04:33:42
第九梦·网站搜索志(lkuu.com)MyWorld MySpace MyNinthDream 主页博客|相册|个人档案   文章列表   百度搜索引擎优化技巧(被奉百度排名优化的圣经) 2006-12-18 22:36 百度搜索引擎优化技巧(被奉百度排名优化的圣经)

百度搜索引擎优化技巧(被奉百度排名优化的圣经) 

 

相信不少站长都听说过站长世界webmasterworld.com(也有的是翻为网管世界)这个论坛。这是世界上最著名的站长们聚集的地方,谈论各种与网站有-关的话题,包括搜索引擎优化,网络营销,网站建设的技术问题,电子商务等等。 


站长世界的创始人Brett 
Tabke,是搜索引擎优化领域里教皇级的人物。据说他以前是经常使用和实验各种作弊手段的人物,当然他现在已经改邪归正了,至少表面上看起来如此。 


近些年,他在站长世界里的帖子并不是很多,而且都非常简短。但无论他帖什么,往往都被追捧。因为他所管理的网站涉及面之宽,他本人所亲身认识的各个搜索引擎和各-大电子商务公司的高层人物之多,以及他在网络世界里的权威地位之高,使他的话不得不被重视。 


他有一篇非常著名的关于百度排名优化的文章,标题是”十二个月内,仅仅依靠百度打造成功网站“。 


这篇文章写于2002年2月3号,到目前为止,这篇文章还是被奉为百度排名优化的圣经。所有资深的搜索引擎专家无不对这篇文章推崇倍至,而且Brett 
Tabke也多次骄傲的声明,就算过了四年时间,历尽了多次百度更新和百度算法的改变,他的这篇百度排名优化文章还是没什么好改动的。 


我简单的搜索了一下有没有中文译本,竟然没有找到。当然也可能有人翻译了,而我没有找到。不过,这篇文章太重要了,所有对搜索引擎排名感兴趣的人不得不读。所以-我在这里把要点翻译出来供大家参考。 


下面是文章翻译: 


让我们跳过理论来看看实际对百度有效的方法。我知道下面的这个系统对百度来说,每一次都有效,而且对所有的关键词都有效。这个系统 
是我给客户做网站时所应用的,而且百试不爽。成功的程度当然也取决于网站所在的行业,潜在市场和竞争水平。下面的要点可以让你仅仅依靠百度,在一 
年的时间里,打造一个成功的网站。 


a)准备工作和建立内容。 


在你注册域名之前,你就应该记录下你的想法,应该准备足够100个网页的内容。请注意是至少。这100个网页应该是真正的内容,而不是链接页,关于我们页,联系-我们或者版权声明等等杂七杂八的网页。 


b)域名。 


你应该选择一个很容易建立品牌的域名,你要的是百度.com,而不是关键词.com。充斥关键词的域名应该被丢弃,易于建立品牌的和容易辩识的域名才是-最好的。 


域名当中所包含的关键词作用现在非常之小。为什么goto.com改名为overture.com,那次改名是我所见过的,最大胆的策略之一。这个改名的策略摧-毁了几年时间所建立的品牌。 


c)网站设计越简单越好。 


一个指标是文字内容的比重应该大于HTML格式的比重。整个网页应该规范化,应该在所有的浏览器上显示正常。比如使它符合HTML3.2标准。搜索引擎蜘蛛还并-不太喜欢HTML4.0标准。 


应该远离那些太重的因素:flash, dom, java 
script等。如果你必须要使用这些脚本的话,把他们作为外部文件来使用。在我看来,根本没有必要使用这些东西。这些东西几乎不能给一个网站增色,却会 
极大的从各个方面伤害网站的表现(搜索引擎友好问题只是其中之一)。 


用逻辑的方式安排你的网站,可以在目录名当中使用关键词。你也可以采用另外一种方法,也就是把所有的网页都放在根目录当中(这种方法很少见,但是事实证明是非常-好的有效的方法)。 


不要让你的网站堆砌一大堆没用的东西,比如说建议使用什么什么浏览器,或者计数器等等,使它保持最简单化,看起来专业化。向百度自己学习,看看他的主页-,简单的没法再简单了。这也正是人们所需要的。 


速度不是最重要的因素之一,而是唯一的重要因素。你的网页应该非常快速,如果你的网页会延时3,4秒钟,你就完蛋了。当然如果你的主机和访客在不同 
的国家, 
3,4秒钟还有情可原,对当地的访客来说,3到4秒钟的下载时间已经是极限了。超过这个时间,每多一秒钟,你就会丧失10%的流量。而这10%的流量可能 
正是成功与失败的分野。 


d)网页大小 


越小越好,最好保持在15K以下。越小越好,最好保持在12K以下。越小越好,你最好保持在10K以下。你明白了我的意思了吧。比5K大,小于10K,这是最好-的。很难做到,但是却是最有效的。对搜索引擎也有效,对访客也有效。 


e)内容 


每天建一页两百到五百字的网页。如果你不知道该写些什么的话,做点关键词调查,然后根据你所得到的热门关键词写文章。 


f)密度,位置等等 


简单老式的SEO,在这些地方用一次你的关键词:网页标题,说明标签,正文标题,网址URL,黑体,斜体,网页的最开始。关键词密度介于5%到20%之间 
(也别太在意)。写出好的文章,并且检查错字。拼写检查(对中文来说,检查错字)正在变得越来越重要。因为搜索引擎已经开始运用自动纠错功能,所以已经没有可以-写错别字的借口了。 


g)导出链接 


在每一个网页连向一到两个排名高的网站,在链接文字当中加上关键词(这一点对未来来说很重要)。 


h)网站内的交叉链接 


指的是同一个网站内的链接。在你的网站之内,高质量的内容之间互相链接起来。如果一个网页是关于食物的,那么你应该确保这页连向关于苹果的和蔬菜的那些页。尤其-对百度来说,基于共同内容的相互链接对在你的网站之内分享PR是非常重要的。 


你要的不是使其他网页黯然失色的一个全明星网页,你需要的是50个每天吸引一个访客的网页,而不是一个每天吸引50个访客的网页。如果你发现你的网 
站里面有一页,确实是吸引大部分流量的页,那么你就应该把这一页的PR值通过交叉链接,分散到其他网页上。这有一点像老话说的分享财富。 


i)开通网站 


最好不要使用虚擬主机。最好使用你自己的单独的IP地址。确保你的网站可以被搜索引擎蜘蛛所索引。所有的网页都应该连向你网站里其他的网页。所有的网页距离主页-都不应该超过两次点击。所有内容页也都应该链接回主页。一个在所有页上都存在的菜单系统,应该链接到你的网站上的主要部分。 


在你完成一个高质量的网站之前,不要把它开通。开通一个不好的网站,比不开通网站更糟糕,你要的是从一开始就是一个优秀的网站。 


申请登录开放目录,如果你有预算的话,也申请提交到雅虎和其他付费目录。如果没有预算的话,可以试试雅虎的免费提交,但是不要抱太大希望。 


j)网站提交 


把主页提交到百度等搜索引擎,然后接下来六个月就忘了这件事。没错,提交,然后忘了它。 


k)记录和跟踪 


使用一个高质量的能够记录访客来源的日志分析软件。如果你的主机提供商不提供访客来源,你就应该使用另外一家主机提供商。 


l)观察蜘蛛 


观察来自搜索引擎的蜘蛛们,确保蜘蛛在爬行你的整个网站。如果不是的话,你应该检查你的所有链接系统,确保蜘蛛能发现你整个的网站。如果搜索引擎需要两次才能检-索完你的网站,你也不要害怕。对很多搜索引擎来说,可能需要六个月才能发现和爬行你的网站。 


m)主题性的分类目录 


几乎每一个行业都它自己的权威分类目录,去提交到这些分类目录当中。 


n)链接 


到百度版本的开放目录查看一下你的网站所在的行业,找到那些可以免费交换链接的 
网站,要求和这些网站交换链接。在主题性的网页上选择一段内容做为链出的文字。如果那些网站的站长不愿意和你交换链接,也没什么,继续下一个。每一天与一 
个新的网站交换链接,一个很简短的个人化的邮件就足够了。如果某个网站不愿意链接向你,别把它当回事-实际上早晚有一天他们会的。 


o)内容 


每天一页高质量的有内容的网页。有实效性的有主题的文章永远是最好的。避免太多博客型的个人化的东西,应该写更多文章类型的普通观众愿意看的内容。 


提高你的写作技巧,学习适合网上人群的写作方式,多分段,短句子,读起来快的内容。大部分的网站访客不是读,而是浏览。这也就是为什么短的文章很重要。如果你看-到一大篇不分段的文章,很多人马上就会按返回按纽了。 


人们不会浪费15秒的时间,来了解你的花里唬哨的菜单系统是怎么工作的。某一个大公司的网站放上一个flash菜单系统,并不意味着你也必须这么做。 


使用标题,使用黑体来强调重点,并且也是逻辑分割。 


p)秘密武器 


离所谓的秘密武器,或者今天有用明天就没用的东西远一点。不要用任何看起来像垃圾的东西,任何不道德的,或任何接近于作弊手段的东西。 


q)导出链接 


当你收到交换链接请求的时候,要仔细查看对方的网站,不要轻易就链接回去。通过百度查看他们的网站,并看他们的PR值。不要链接到有问题的网站和质量不-高的网站。确保对方网站和你的类似,是同一个行业的。 


r)丰富你的网站 


可以用一些内容丰富你的网站。比如说推荐网页给你的朋友,论坛,邮件列表,电子杂志等等。去看一下你本行业的论坛,读的越多越好,直到你读不下去了。 


s)注意小册子类型的网站 


如果你运行的是电子商务网站,或者你有一个真正的店面,想把生意扩充到英特网上,要注意不要把你的网站做成一个宣传手册。想想人们需要什么,访客不 
是来你的网站看你的内容,他们是来你的网站寻找他们自己所需要的内容。在你的文章当中,尽量少谈你自己和你的产品(我知道你在怀疑,你自己好好想想)。 


t)每天增加一个网页 


回到关键词研究,找出好的点子,写新的网页。 


u)研究日志文件 


过了30到60天之后,你应该开始从已经被登录的地方得到一些访客。仔细看一下,人们是用什么关键词搜索找到你的网站的?是不是有一些很莫名奇妙的关键词组合?-为什么人们会用这些关键词找到你的网站呢?有没有什么东西是你所忽视了的呢?很有可能你应该以这些为主题,创建更多的网页。 


仔细研究你的网站和日志,给搜索引擎需要的网页。搜索引擎会准确的告诉你,他们想要什么。你要仔细的看,在你的网站日志当中有一座有待开发的金矿。 


v)实效性的话题 


在你的行业当中,永远走在别人前面。比如说如果一个大公司Z,在年底要推出产品A,那你可以在十月份之前就做好一个网页,是关于产品A的。那么在十二月份之前,-搜索引擎就已经收录了这个网页。 


w)朋友和家人 


社交联系网络对一个网站的成功也非常关键,这也是你看那些论坛的时间要得到回报的时候了。仅仅是看永远是没什么用的,论坛的价值就在于和其他的同事及网友交流。-通过交流,你可以得到长远的利益,而不是仅仅读论坛。这种交际网络也会通过其他方面得到回馈。比如说导入链接小窍门,电子邮件交换意见,成为这个行业的专家的可-能性等等。 


x)记录 


如果你每天增加一个网页的话,你会发现有的时候,一个好主意突然就出现了,没准你正在洗澡(先擦干了),正在驾车(先把车靠在路边)或者也许就在桌子上趴着。当-一个好的点子出现的时候,把它记下来。不然十分钟以后,你就会忘了你刚想起来的主意。 


要把它先记下来,然后再把细节写出来。当你没什么好点子的时候,把这些记录拿出来。这听起来很简单,但是却是一个屡试不爽的好主意。 


y)六个月的时候,检查提交的网站 


看一下你所提交过网站的地方,是不是收录了你的网站。如果还没有的话,就再提交一次,然后再一次忘记。试一下那些免费的分类目录。 


z)每天建增加一页高质量的网页 


这一点已经重复好几次了,百度喜欢内容,大量的高质量的内容。以一系列关键词为基础的广泛的内容。在经过一年以后,你应该已经有了400页左右高质量的-内容。这些内容应该使你的网站在很广泛的关键词里面得到好的排名。 更多的推广文章请到http://www.lbxjy.com/BBS论坛查询


做这26件事,我担保你一年以后,你会有一个成功的网站。它将能从搜索引擎中得到每天五百到两千个访客。 

类别:默认分类 | 评论(0) | 浏览(49 )   Baidu 优化和排名技术 2006-12-18 22:31 Baidu 优化和排名技术

  百度的搜索排名原则 百度是全球最优秀的中文信息检索与传递技术供应商,公司号称“全球最大的中文搜索技术提供商”。中国所有提供搜索引擎的门户网站中,超过90%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren)、Tom(163.net)、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。

  百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒。

  百度公司(Baidu.com,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利唯一持有人――百度总裁李彦宏,及其好友――在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。

  百度搜索引擎的特点

  1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。

  2. 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

  3. 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。

  4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。

  5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。

  6. 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。

  7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)

  8. 可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。

  9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。

  10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。

  11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。

  12. 高可配置性使得搜索服务能够满足不同用户的需求。

  13. 先进的网页动态摘要显示技术。

  14. 独有百度快照,

  15. 支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。

  百度搜索竞价排名服务

  由客户为自己的网页购买关键字排名,按点击计费的一种服务。您可以通过调整每次点击付费价格,控制自己在特定关键字搜索结果中的排名;可以通过调整您的关键词捕捉到各类不同的目标访问者.

类别:默认分类 | 评论(0) | 浏览(5 )   百度搜索优化技巧 2006-12-18 22:28 以下是我对百度优化的一些心得,希望对大家能起到一点启发及引导作用。由于水平有限,不当之处还请各位大侠指正,先行谢过!

好了,进入正题。经过几次与百度的正面对话,了解到,百度是严禁使用优化手段提高网站排名。(注意:他们是说禁止优化,并不是禁止作弊!不管他的目的是什么,做好排名依然是我们的工作)以下是我总结的一些被百度认为是优化的手段:

(1) Title,众所周知,是决定排名的一个非常重要的因素。当然,百度不是白痴,所以,他们也会根据Title的写法来给你的网站判刑。尽管如些,我们还是可以在此做做文章。我们选择的关键字毫无疑问地放在最前面,但此处关键字出现的次数不能大于2,而且最好是一些描述性文字,而不是单纯的关键字堆砌。以下是我写过的一个Title,主关键字是“小游戏”:

小游戏-打造全国最好休闲小游戏网站

仔细看看,你会发现更好东东~~~

(2) meta 中的description 及 keyword;很多人有一个非常坏的习惯(起码我认为是这样),在keyworld及description中将关键字以不同形式重复N遍,这个对于任何一个搜索引擎来说都没有好处,一般Google你可以以不同形式重复3-4遍,这对于Google来说是一个非常友好的提示。但是对于百度,尽最大的努力保持在2-3遍内,在description里要尽量写成较长句子,从而减少关键字在description中的密度。又过一关了~~~~~~

(3) 页面优化问题:

切忌在页面最顶端或者任何位置突显关键字。(这句话你细细品味一下,不同的人会有不同的体会,也会有不同的解决方法)当然,也不能以任何的方式增加关键字密度。例如:这是我优化过的一个网站的顶部描述,关键字为“小游戏”:

小游戏:在线小游戏网站,收集国内外精选小游戏,包括经典小游戏及小游戏下载,含搞笑类,射击类,休闲类免费小游戏,迷你小游戏收藏本站

这样的描述在Google或者其他中文引擎起码可以得到80-90分,但百度,是0;无论你写得多么通顺,结果只能是封!

(4) 链接问题:

为了进一步打击优化网站,百度还有一个强硬措施就是对于与优化网站链接给予降权处理。解决方法,用flash转向实现,下载这个flash文件(http://www.10flash.net/url.swf),然后以以下形式写链接地址,http://www.10flash.net/url.swf?url=http://www.flash-game.com.cn即可解决此问题。

上面叙述的是一些大家都优化网站时容易忽略的要素,“Google是搜索引擎的标准,做好Google优化在其他搜索引擎上也会有不错的排名。”但是我们不能以Google的模式去优化中文网站,如果你还在乎百度的话。百度在中文搜索中无疑还占据一个很大的份量,如果你要与他过不去,我可以肯定你是一个跟钱过不去的家伙。我做的一个主关键字“小游戏”,N多关键字排行超好,在百度也曾风光过一阵子,每天带来接近两万个IP流量。如今风光不再,痛定思痛,得出以上一些简单经验。由于还没经过实践,所以也不能断言这是正确的。
类别:默认分类 | 评论(0) | 浏览(12 )   Google 网站管理员指南 2006-12-18 21:41

Google 网站管理员指南(1)

今天让我们研究一下Google对网站管理员的建议,逐一分析,也来看看其内涵的特别意思。

网站准备就绪后:  

+将其他相关网站链接到您的网站上。 
+将其提交给 Google,网址为:http://www.google.com/addurl.html。 
+将 Sitemap 作为我们 Google Sitemaps(测试版)项目的一部分进行提交。Google Sitemaps 使用您的 Sitemap 了解您网站的结构并提高我们对您网页的利用率。 
+确保应了解您网页的所有网站都知道您的网站已处于在线状态。 
+将您的网站提交给相关的目录,例如,Open Directory Project 和 Yahoo!,以及其他特定行业的专业网站。 

 

这里的先后顺序相信是Google有意安排的,并非排名不分先后。
当网站基本建立完成后,首先要有外部链接,就是需要有其他的网站,相关的网站,链接到你的网站,这是最重要的,也是首先要做的事情。接下来才谈得上其他的网站提交工作。
一个孤岛似的网站,很难要求Google去收录。
好了,现在有了几个外部链接,用你网站的名字,或者关键词链接到你的网站。
下面开始提交你的网站到Google。这一步重要性不再如以前那么重要了。
Sitemap是一个帮助Google蜘蛛来更好的遍历你的网站的工具,不要小看她,还是好好的做一个Sitemap文件,提交到Google Sitemaps.
第四条有点奇怪,我的理解就是重复第一点,加强外部相关网站到你的网站的链接。
最后一条,才是提交到目录,各种行业目录。

显然,Google更看重从相关网站所来的链接,从他重复了两遍,就可以看出其重要性。而从目录来的链接权重要小于前者,当然也很重要。

Google 网站管理员指南(2)

现在我们来讲讲技术层面的东西。在这一部分,Google中文的内容简直是惨不忍睹,我还是链接英文原文,加上我的解释好了,至少看得懂。

Technical guidelines技术指南
大部分的搜索引擎蜘蛛拜访你的网站时候,如同一个文本浏览器,比如Lynx,你可以下载一个Lynx浏览器,看看你的网页在Google蜘蛛的眼中是什么样子。如果由于你使用了Javascript、Cookie、会话ID、框架等复杂的技术,造成在文本浏览器中看不到你希望的样子,那么,显然Google的蜘蛛也看不到。所以要避免这种状况出现。 

在Google蜘蛛抓取你的网页的时候,要避免使用会话ID,session ID,这个东西会造成Google抓取网页不完全。

Update:10月25日,Google修改了这条,可以接受参数,尽量简短,不要超过两个,如果可以得话,还是用静态网址的好。

 

如果你的网站所在的WEB服务器支持if-Modified-Sice HTTP头,那么就打开它,可以告诉Google蜘蛛哪些网页是新的要抓取,那些是旧的不用抓取,这样可以节省你的带宽和服务器开销。

要设置好网站的robots.txt,这个文件是用来告诉搜索引擎的蜘蛛,那些目录可以抓取,那些不可以。要注意的是,确保该文件正确反映你的网站的现状,不要阻止蜘蛛抓取你想给它抓取得目录。你也可以在使用Google Sitemaps的工具来分析。

如果使用了内容管理系统CMS,那么也要确保其能正确导出内容,以便搜索引擎的蜘蛛可以抓取你的网站。

切勿使用"&id="作为网址的参数,因为Google不会在索引中包含这些网页。

从上面的六条内容来看,文本内容很重要,确保您的网站在文本浏览器的样子是你所期望的。
不要使用太多花哨的技术,这样不利于Google的收录。
而且会话ID是Google很不喜欢的。

SEO的8项技巧

1)服务器的位置
根据你主要目标用户的位置来确定你的网站服务器的位置。
Google对于服务器的IP地址(可以用来确定位置)还是有所区别的。

2)服务器的IP地址是否被处罚过 
如果使用的是虚拟主机,或者是共享的空间,那么要注意,谁是你的邻居。
一台主机上有40个虚拟主机,如果其中的大多数网站,在Google都曾被除名,或者屏蔽的话,你的服务器也会受到牵连。
首先检查一下,这台服务器上有多少的网站,使用这个工具可以轻松查到结果:
http://whois.webhosting.info/ip/
这里的ip就用你要查的服务器的ip地址来代替。
然后用所查到的网站域名,来查看Google收录了多少页面,在Google的搜索框里输入site:www.###.com就可以了。
如果大部分的网站都没有给Google收录的话,那么很有可能这台服务器被Google处罚过,最好换一台。

3)服务器的稳定性
一个稳定的网站,需要一台稳定的服务器。一台三天两头会down机的服务器,如果恰好在Google蜘蛛来抓取你的网站的时候,无法访问,你的排名和收录都会受到很大的影响。


4)域名、路径名、文件名
这些词都有关键词的作用,要选择好的,这却反映你公司的域名,然后路径名称,和文件名称都会对Google排名有很大的影响。
记得使用英文,或者拼音来做路径名和文件名,不要直接用中文。

5)网页的标题和meta标签
这就是最常用的Title标签,和meta标签。
我觉得Title更为重要,一定要用好,每个页面都要用不同的Title,要用最能描述网页内容的名字。
至于meta的description和keywords,对于Google来说已,不再那样重要。


到这里开始是精髓,要注意看了。

如何使用Google Sitemaps

Google Sitemaps是Google提供给网站站长的工具,有两项功能,第一就是可以让站长提交完整的网站地图给Google,便于Google蜘蛛遍历整个网站。第二是一个控制台,提供了网站在Google索引里的情况,以及蜘蛛抓取网页的情况,是否有无法抓取的问题等等。

1)首先你要有一个Google Account。如果没有的话,去这里申请。

2)登录到Google网站管理员工具

3)添加网站。

4)确认网站的所有权,基本上这里是控制权的确认。

5)提交Google Sitemaps文件。


至于Google Sitemaps文件,不同于其他的网站地图,它用自己的协议,那么如何制作这么一个专用于Google Sitemaps的文件就成为了一个问题。

Google更新规律

最近我的观察,Google的更新相当的频繁,从昨天开始的这一轮更新,到现在还没有结束。

Google为了维持,或者说保持其在搜索领域的先进性,在不断的加快它的索引服务器的更新速度。
如果一个PR值在5以上的网站,新的内容一般在几个小时里就会出现在Google的搜索结果里。

虽然确切的时间没法确定,可是只要常常去看看你的网站的收录数,你就能发现,Google更新的越发频繁了。

通常,如果你在Google Sitemaps里提交了Sitemaps文件后的1,2个小时,就会有Google蜘蛛来光顾你的网站。至于反映的收录数目,则需要等更多的时间。

不管怎样,Google更新频繁,是一件好事,至少对于那些网站内容更新频繁的站长来说,是的。

Google PageRank 在线检测

Google排名参考了很多的参数,而其最核心的仍然是PageRank。

PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。 

来看看Google自己的说明

关于PageRank 
PageRank,有效地利用了 Web 所拥有的庞大链接构造的特性。 从网页A导向网页B的链接被看作是对页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性。可是 Google 不单单只看投票数(即链接数),对投票的页面也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。
根据这样的分析,得到了高评价的重要页面会被给予较高的 Page Rank(网页等级),在检索结果内的名次也会提高。PageRank 是 Google 中表示网页重要性的综合性指标,而且不会受到各种检索(引擎)的影响。倒不如说,PageRank 就是基于对"使用复杂的算法而得到的链接构造"的分析,从而得出的各网页本身的特性。
当然,重要性高的页面如果和检索词句没有关联同样也没有任何意义。为此 Google 使用了精练后的文本匹配技术,使得能够检索出重要而且正确的页面。 

 

基本上在Google的搜索索引里有收录的网页,都有一个PageRank,从0到10不等。
如果你有安装Google的工具条,那么在浏览时,看到PageRank的值。

META标签是否不再重要呢

META标签在早期的搜索引擎技术里是很重要的,因为那时它们还没有能力抓取所有的网页,也没有技术作全文分析,那么每个META标签就显得非常重要。

最常用的META标签是,META DESCRIPTION和META KEYWORDS,前者是描述该网页的主题,后者是相关的关键词。

有些SEO业者认为对于Google来说META标签不再重要,可是根据我的观察,META标签在Google的搜索索引里还是有一定的地位的。

比如
在这里的网址的说明部分,就是采用的META DESCRIPTION的内容。

该页是百度的站长建议(1),你也可以自己去看看那里的源代码。

我在该网页的头部加入了下面的说明:

可见,Google对于META标签还是有所考虑的。

Google蜘蛛有几种

如果你看过一些有关SEO的文章,一定会发现有这样一个名词“Google蜘蛛”,也叫做Google Spider。
常见的Google蜘蛛有两种。
一种是搜索引擎用的,叫做Googlebot,它会访问制定的网页,收集该网页上的链接,而且会顺着这些链接找其他的网页,通过这些链接,把世界上的网页连成了一个巨大的网,所以这些在网络上爬行的Googlebot也被称为Google蜘蛛。
在Robots.txt文件里的写法和设定,如下:

User-Agent: Googlebot
Disallow: 

 

还有一种叫做Mediabot,这种蜘蛛也是Google的,它的目的是抓取网页来匹配Google AdSense与内容相关广告的。

在Robots.txt文件里的写法和设定,如下:

User-agent: Mediapartners-Google* 
Disallow:

 

Google收购Neven Vision

最近有一条消息,指称Google收购了Neven Vision,一家图像公司。这个消息已经被证实,参见A better way to organize photos?

当然Google是说会整合该公司的面部识别技术到未来版本的Picasa,以利于用户搜索照片。

可是这种技术的发展,可以让Google在图像识别技术上取得很大的先机。MSN已经有了自己的人像识别技术,虽然略显粗糙,可是把人像转为卡通头像已经可以做到了。

现在Google获得了这项面部识别功能的技术,在这个领域同Microsoft有的一拼。

那么当Google收购了Neven Vision之后,除了把面部识别技术应用到Picasa里,还有哪里可以用呢?

不免让人想到Google赖以生存的搜索,其实Neven Vision本身拥有14项面部识别的专利,它已经有一个基于照相手机的图像搜索引擎。

Google会不会把这项技术应用到Google Image呢?只要提供一幅图像,那么Google就可以在网上找到相似或者相同的图像,而且告诉你在哪里。

Google而且提到,这项识别技术的发展,将不止包括人物,还有物体和地点。

Google的关键词工具

昨天我在写选择关键词的三个要素的时候,想到过用Google AdWords来分析关键词,今天就来探讨一下。

Google 关键字工具

同样用昨天的玫瑰花和康乃馨为例。

可以看出Google给出了明确的答案。

使用这个工具的主要目的,就是在表达相似意思的多个关键词之间,找到一个,或者几个搜索量相对大的关键词,以帮助筛选关键词,用于网站的优化。

在Google Sitemaps里设置网站的首选域

Google的Sitemaps是一个专门为站长设计的工具,关于Sitempas文件的制作,我们已经在如何使用Google Sitemaps讲过。现在我们会来谈谈在Sitemaps里设置首选域的问题。

登录Google Sitemaps后,在诊断〉首选域部分有设置。
在互联网的网址规范里面,seo.g2soft.net和www.seo.g2soft.net是完全不同的两个主机名字,代表了两个网站,可是有些网站的有www和没有www开头的网址其实是指向了相同的内容,这种情况,会被搜索引擎认为是重复内容而受到处罚,而首选域的功能就是让你可以设定,有www和没有www开头的主机其实是相同的主机,而且用你所习惯的,所首选的网址形式表达出来。
当然你可以不设置,默认的设置就是两者是不同的网站。

在没有首选域这个设置之前,常规的做法是,把seo.g2soft.net指向网站空间,而www.seo.g2soft.net用301重定向到seo.g2soft.net。
现在我只要在GoogleSitemaps里设置首选域为seo.g2soft.net就可以了。

这个设置只对Google的搜索引擎有作用,那么如果你想对其他的搜索也能做到相同的功效,就必须使用301重定向了。

昨天Google对于Sitemaps的首选域部分有所改进,参见下面的文章。
Setting the preferred domain

常见问题:
Q. 设置首选域之后,多久会看到我改变的网址在搜索结果中出现?
A. 一般在几个星期里会出现。

Q. 设置首选域后的变化?
A. 设置首选域后,
1)所有指向那个站点(包括有www和没有www)的链接,都会被认为是指向你所设定的那个域名网址。这样有利于对PageRank的认定。
2)在之后蜘蛛抓取网页的时候,会直接去你所设定的首选域去抓取。
3)在搜索引擎里所收录的页面会采用你所设定的首选域,如果已经有不同的版本(包括有www和没有www),那么逐渐的,你会看到收录的网页会转换到你所设定的首选域。

服务器的IP地址对于搜索排名的影响

受Fenng的技术高手的启发,做了相关的研究。

如他所说,用技术高手来搜索,他的Blog排在了前面,似乎同这个query不太相干。

当我们选择“网页”,“所有中文网页”,或者“简体中文网页”的范围来搜索的话,结果就是这样,DBA Notes排在第一。

而当我选择“中国的网页”的时候,DBA notes就不再是第一了,而且在搜索结果里消失了。

当我们用Site命令来查看该网站时。
Site:dbanotes.net
使用”中国的网页“,结果是收录数为零。

当我们用不同的范围来搜索的时候结果不同:
“网页” - 5000结果
“所有中文网页 ” - 包括简体,繁体,共1620个结果。
“简体中文网页” - 1630项。
“中国的网页” - 0。
以上是在www.google.cn上的查询结果。
当使用www.google.com的时候,就没有了“中国的网页”这个选项。
相信Google的这个概念“中国的网页”是用网站所在的IP地址来判断的。

本站因为在加拿大,所以也有同样的现象。

类别:默认分类 | 评论(0) | 浏览(12 )   不好抓动态网页给搜索技术带来困扰 2006-12-18 21:34

所谓动态网页是指在WWW服务器上并不存在实际的一个页面
供服务器读取,与之相对应。它在服务器上实际以一个可执行
的程序文件存在,这个程序文件可以产生HTML格式的信息输
出,通常人们把这样的程序叫做CGI程序。当服务器接收到客
户端对一个动态网页的访问请求时,Web服务器通过调用相应
的程序文件即CGI程序文件,并把包含在Http请求中的程序参数
传递给CGI程序,程序按照调用参数实时地产生HTML输出,
Web服务器再将程序产生的HTML输出返回给用户。下面是一个
表示动态网页的URL的例子: 
http://search.sina.com.cn/cgi-bin/search/search.cgi?
_searchkey=html&_ss=sina 
在这个例子中,我们实际上是在search.sina.com.cn(新浪网搜索
引擎)中进行「html」一词的搜索,URL中的CGI程序路径是
「/cgi-bin/search/search.cgi」,而我们通过该URL传递给CGI程序
的参数是「_searchkey=html&_ss=sina」。 
有所得必有所失 
相对于WWW中的动态页面来说,传统的静态网页是由网页编
写人员按照HTML语言编写存放在WWW服务器上的实际页面文
件,当我们访问这个静态页面时,WWW服务器在接收到由客
户端发送的Http请求之后,按照客户端的要求读取相应目录中
静态网页的HTML内容并将其返回给客户。 
以往的网页只有文字和图象,静态而乏味。现在不同了,动态
网页实时地生成HTML网页信息,尤其是通过CGI程序与Web数
据库等的结合,人们可以通过一个CGI程序生成我们习惯的
HTML文件帮助用户方便地在WWW这个庞大的数据库系统中访
问数据信息,而这些任务如果要利用人工编写的HTML生成,
其工作量是不可想像的。由于动态网页给人们带来了极大的方
便,它在近几年来被广泛应用,同时也促进了WWW的迅猛发
展。但在动态网页迅速发展的同时我们也付出了代价。 
动态网页带来搜索困扰 
下面我们将具体介绍动态网页对搜索引擎带来的困扰,并谈谈
搜索引擎对动态网页的解决方案。 
在早期搜索引擎系统设计过程中,对动态网页大多没有进行特
殊处理,而是对所有的URL一视同仁,但在实际运行过程中,
发现越来越多的动态网页给搜索技术的实现带来很大困扰。 
对于WWW服务器来说,对于用户每一个动态网页的请求,服
务器都必须调用CGI程序,等待CGI程序的输出,然后才能够向
客户返回页面结果。而无论是服务器对CGI程序的调用,还是
CGI程序的运行都需要花费CPU、内存等系统资源。这样,对于
发送动态网页请求的客户端来说,由于程序的运行需要时间,
客户端需要较长时间的等待。尤其是当WWW服务器处于繁忙
状态时,客户需要等待更长的时间才能得到所需的动态页面资
源。对于服务端来说,如果服务器上运行的CGI程序没有较好
的程序结构的话,则程序在服务器端还会造成更大的影响。 
具体到搜索引擎,对于搜索器即收集系统来说,系统的目的是
要实现快速、广泛、高质量的信息收集。在系统自动收集的过
程中,频繁地发送请求生成动态网页会造成两个方面的副作
用:其一,在WWW服务器端引起本系统和其他访问该服务器
资源的用户的竞争,给服务器造成较大的系统压力,导致服务
器效率急剧下降甚至瘫痪,对其网络造成冲击;其二,很多的
动态网页由于程序运行效率不高,加之有时网络情况恶化,从
我们发送出Http请求到最终收到服务器结果页面返回,我们经
常要等待较长的时间,甚至有可能在系统的超时时间已经到
达,我们还不能够得到所需的资源。在这样的情况下,如果系
统频繁地为处理动态网页请求所占用,不仅会极大地影响系统
对静态网页的收集效率,同时也对网站造成了巨大的压力,使
网站其他服务能力大打折扣。 
特殊处理动态网页 
由此,为了提高系统的运行效率和减小系统对网络的冲击,我
们必须对动态网页进行特殊地处理。在搜索引擎搜索器中,我
们依靠URL路径中的「?」符号去断定一个网页是否属于动态网
页,在进行URL调度时,我们对动态网页的权值重新加以考虑
适当进行降权处理,并将每次调度出的动态URL限制在一定的
百分比之下。按照这种方法,我们可以有效地提高静态页面在
URL调度中的优先权,从而降低了动态网页对系统造成的负面
影响。

类别:默认分类 | 评论(0) | 浏览(4 )   搜索引擎的工作原理 2006-12-18 21:27 在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。 

一、搜索引擎的分类 

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。 

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。 

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。 

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。 

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类: 

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎” 
http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。 

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。 

二、搜索引擎的工作原理 

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。 

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。 
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 


真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。 

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 

从互联网上抓取网页 
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 


建立索引数据库 
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 


在索引数据库中搜索排序 
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
类别:默认分类 | 评论(0) | 浏览(9 )   百度硬盘搜索分析 2006-12-18 21:18

百度硬盘搜索将于下周一推出颇受注目的[百度硬盘搜索],说瞩目,原因是在搜 索引擎大比拼的时代,能否吸引用户,吸引了用户后能否守住用户,现在似乎大 家的共识是在桌面上了。而这一款硬盘搜索也将逼迫同行业的中文搜索引擎们要 考虑如何巩固市场的问题了。 百度硬盘搜索下载 在使用了几天的百度硬盘搜索引擎概括的看起来有如下的特征: 1] Google Like 就是从设计风格上和理念上都沿袭了google 的硬盘搜索产品,趋同设计或者 copy strategy是现在一个减少开发成本减少创新成本的绝招,这点上百度做的非 常到位。 2] Baidu Style 当然,是中文产品,就有中文产品的特征。突出的特征有两个: 1.中文分词--这个简直是废话!不能分词不就是google 硬盘搜索了么? 2.加密码功能。这个功能很体贴,因为加了密码就在一定程度上保护了个人隐私, 对于中国现在还不能人手一台电脑的国情考虑的比较周到。 3] Something whoops. 1. 图片搜索 没有能给出缩略图,这样的话这个功能显然就型同虚设了。而且最重要的是,因 为图片搜索在网页上的算法跟本地的文件系统的算法的差异很大,因此这个功能 应该说开发的不算好。 2. 长结构的语句搜索,硬盘搜索的分词系统不如百度网站本身的好。 这点上等下我有两张图可以做对比。我想百度的硬盘搜索并没有完全采用百度网 页的分词算法,因此可以从长句子的查询中得到结果,本地的硬盘搜索是先对长 语句进行分词后进行“and”的查询结构,查询后没有进行进一步的“=”的验证。 4] Something cool. 1.索引的快速。我0.8G的笔记本平时运行个PPT都只喘气,20分钟内百度硬盘搜索 索引了6000多个文档。搜索起来也非常的快。 2.能够方便的索引中文word/ppt/pdf/xml/..... 并能够清晰的区分的方式显示 搜索结果和数目。 百度硬盘搜索能够占领多大的市场? 这点上我没有概念,在百度硬盘搜索之前,我曾经使用过几个硬盘搜索工具,中 文的硬盘搜索例如 88data.com ,就做的相当不错。不过市场还没有做起来,因此 88data到现在的搜索量看起来还是一个可怜的数字。 百度的客户端一直做的不错,以前的百度下吧我曾经用来下过一阵子电影,不过 后来没有了Windows Desktop就算了。百度下吧显然没有百度硬盘搜索要容易推 广,一来下吧有竞争对手无数,二来总有侵犯版权的嫌疑。而这个硬盘搜索则是 毫无后顾之忧,而且能够固化用户的忠诚度,估计会大力推广。 百度硬盘搜索能有其它玩法么? 当然了,这里我就说说一个利用百度硬盘搜索制作个人搜索引擎的方法,如果你 有两台空闲的计算机并且在同一个局域网内的话: 1] 请你准备一台Linux 计算机,这台是做爬虫用的和搜索引擎的前端。 2] 请你格式掉另外一台计算机,从新安装全新的windows系统,安装上百度硬盘搜索。 下面配置Linux 服务器 3] Linux 上建立一个目录专门用来存放抓到的网页,并启动爬虫程序 4] Linux 上将这个目录采用 samb 的方式输出 5] Linux 配置Apache 的前端,作为搜索引擎的入口 6] Apache 采用Url rewrite到 Windows 计算机的7887端口进行真正的请求 下面配置Windows服务器 7] 在windows上联结 Linux 上的Samb 的输出,挂上这个Linux 的输出目录,映 射到本地 8] 下载安装百度硬盘搜索,并运行索引 返回到Linux 服务器 好了,这台Linux 服务器就可以进行搜索引擎服务了,改变你自己的 page style就可以做成自己的搜索引擎了。 好了,下面是我自己使用的硬盘搜索的快照。...

搜索引擎SPAM的检测方法:供BSP参考


经车东提醒,我也注意到现在很多的人采用blog系统进行网站优化,情况已经到了非常严重的地步了。 例如你在google里搜索天下无贼免费电影下载,您一定会失望,而且您会发现一个“有趣”的现象,几乎第一叶的10个全部是blog相关的,点击进去后才发现原来是利用blog 进行 link farm从而进行提升网页流量最终为特定的网站获取点击的做法。 这个做法凸出利用了各个BSP(博客托管)服务商的首页Page rank比较高的原因,在加上良好的inbound link和outbound link以及多个BSP下的blog所构成的Link farm,已经"成功"的将自己做成了我们定义的search engine spam的一种。 我最初的想法是在整个bsp的数据库里进行搜索,判断这个用户有多少个links out并且[Text length/# of Links]来进行筛选,但是后又想到这个需要遍历整个数据库,太不化算,最终想到了一个比较简洁实用的做法: 在google 里搜索 blogchina yculblog blogcn site:blogdriver.com就可以一把将blogdriver.com 里所有的Link spam 找出来,通理适用于blogcn.com,和blogchina.com以及任何的BSP,并且也适合于其它的搜索引擎。 例如在中搜里搜索link spam的情况:donews yculblog blogcn site:blogdriver.com 当然,上述的方法除了可以查询link spam之外还可以从侧面看一个搜索引擎防止spam上所做的努力。 已经开始在blogdriver和blogchina上清理link farm了,未来这两个网站将不再是SEO作弊者的地方。...

简并算法:文本自动聚类算法的实现


基于文本的信息自动聚类的算法很多,我以前介绍过一些,比较流行的算法有我以前提到的KNN和SVM,在过去的一段时间里,空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法,能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现,希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法 简并算法是指在文本信息空间内寻找任何两个最相关的文本信息,并将之简并成一个文本信息,从而实现信息数量的收缩。 2] 如何实现 1. 简并算法的实现通过比较整个信息空间内的所有文本的相关性(相识性),得到相互之间的相关性后两两(注)进行配对。配对的要求是这两个文本信息的相关性最大,例如A 找到了文档B,那么B 也一定找到最相关的文档就是A 。 注,某些情况A 最相近的文档是C ,那么B 而B 最相关的文档也是C ,存在一种情况,A,B,C 三者之间自恰,就是构成空间信息最近的一个三角形。 2. 得到了最相似文档后,将只进行平均化,或者简单的迭加。 3. 信息空间中独立信息的数量会减少到原来的一半以下,然后重复实现1 的过程,在进行兼并。 4. 信息最后简并到唯一的一个信息,就是整个信息文本的平均值。 5. 画出信息树的结构,就能够根据要进行规模不同大小的聚类进行自动聚类了。 如下的信息树结构是对我进行测试的一个小样本大约70个文档进行信息简并算法得到的图像: 完整的树结构可以看这里: 从上图可以看出,经过自动聚类后类别0,2具有最相近的关系然后进行兼并后和类别5进行了简并,然后在和类别6进行了简并,最终和另外一支的信息进行了最后的简并,聚成唯一的全部的信息简并。 图中矩阵的明暗表明了信息之间的相关程度,矩阵经过对角化后可以明显看到聚类的效应。 本试验的文本信息和分类结果下载: 下面是我进行文本聚类的文档公布下载『一共70个文档』,我产生的文本的相关性的矩阵下载。 简并算法我也实现在大样本的聚类上,大约2000个文档进行自动的分类后进行聚类的运算时间大约为2个小时「抱歉,我基本上是用shell scripts 和perl scripts 来写代码」,如果先进行聚类在分类大约要5个小时。 最耗时间的过程是产生相关性矩阵,2000X2000有400万的元素,当然不会那么快了。 经过实践,简并算法的自动聚类还有很多需要改进的地方,例如最关键的是信息之间的相识性的计算,我采用了最大似然(Maximum Likelihood Fitting)的拟合,在计算上比较消耗时间,以后可以改变成其它的算法。 文本的自动聚类可以看到Google New上面已经相当成熟,这里的简并算法未来将为博客中国的新闻搜索提供支持,希望能够提供较好的机器新闻。 - 卢亮 2005年2月20日 参考文献: Yiming Yang, S. Slattery and R. Ghani. A study of approaches to hypertext categorization (ps.gz) Journal of Intelligent Information Systems, Volume 18, Number 2, March 2002. Yiming Yang and Xin Liu A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR‘99, pp 42--49), 1999. Soft Clustering Criterion Functions for Partitional Clustering Ying Zhao and George Karypis (A poster paper appears in CIKM 2004) Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering Jerome Moore, Eui-Hong (Sam) Han, Daniel Boley, Maria Gini, Robert Gross, Kyle Hastings, George Karypis, Vipin Kumar, and Bamshad Mobasher...

Hack google: News + gmail + groups = ?


google News + google gmail + google groups = XML = personal news portal. 这几天大约是在做分类算法和做我讨厌的SAS程序太烦琐了,之余做了一个花招,将google现在的几个主要的服务 hack 了一下, 穿了起来,做成了一个个人的新闻信息门户(这个个人信息门户与我跟文心和老冒去年三月提起来的个人门户的观点是不一样的)。 主要突破了google的新闻不输出 RSS 的限制,利用google 的系统间的bug (其实也是google的自恰的原因),将google的新闻通过google本身转换成Rss输出。 做法: 1] 申请一个google gmail 帐户 例如 nowings 2] 申请一个google groups,其中设置以下几项: 1. 不发送 email 2. 谁能成为成员 Who can become a member of your group? Invitee Everyone Membership is moderated yes moderated 3. 谁能发文 members 4. 增加几个默认的用户 googlealerts-noreply@google.com (这个是必需要加的!) gnews@gmail.com 这个就是你自己了。 这里不需要邀请,直接成为会员,你自己作为moderated。 5. 记录下来发文的 groups email: nowings@googlegroups.com 3] 回到gmail Setting -- Forwarding and POP -- Forwarding 里输入 你这个group的发文地址: nowings@googlegroups.com 并且在自己的帐户里留下一份备份。 4] 去 http://news.google.com google 新闻 订阅自己喜欢的新闻来源 5] 回到 google groups, About this group 的联接下, 有: Atom feeds: 100 New topics 15 New topics 100 New messages 15 New messages 好了,这些就是我们最终得到的 Rss 来源了,google 虽然自己不提供Rss,而且也禁止别人提供Rss,可是还是被我们Hack了一把。写到这里我发现我头疼的SAS又运行出错了。。。。 以下为我的几个抓图,可以参考: Google group 的成员email 列表 Gmail 的email fordwing setting 订阅google快迅 最后将之输入到我的Rss阅读工具里面,一切就完成了:...

类别:默认分类 | 评论(0) | 浏览(11 )   集中/分布式搜索引擎的4种设计方案 2006-07-21 14:47

对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. 那么分布式搜索引擎的最主要的核心问题是哪些呢? 1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制 3. 前端搜索服务的分布 主要处理大规模并发请求时的分发机制 基于以上3个基本需求, 基本上可以构造如下4类的分布式搜索引擎: 1. 分布式元搜索引擎 2. 散列分布搜索引擎 3. P2P 分布搜索引擎 4. 局部遍历型搜索引擎 下面逐步介绍以上4类可扩展的搜索引擎: 1. 分布式元搜索: 拥有多个单个的搜索引擎, 中心搜索引擎是利用这些分布的单个的搜索引擎的结果进行撮合得到完整的结果. 这样的设计方案要求各个单元的搜索引擎拥有相同的排序算法和基本相同的数据输出结构,以便由中心搜索进行整理。 对于这类的搜索引擎,关键的设计是要求每一个单元所拥有的索引不构成重复,但是进行数据的采集(爬虫)时可以采取独立的系统获取后再按照规则分布到各个单元上。 优点,设计简单,快速,并且任何一个单元可以随时的摘掉但并不影响太大。 缺点,对于大规模的并发并非好的解决办法 2.散列分布搜索引擎 根据Query对索引服务器和文档服务器进行散列,做到对于任何的索引词能够准确的定位到具体的索引服务器并从而定位到正确的文档服务器。 优点,抗压,设计简单 缺点,对于单个索引服务器或者文档服务器的容量等动态的调整较困难 3.Peer 2 peer 搜索引擎 著名的Napster就是这样的一种设计,利用集中方式的索引,配合分布于世界各地的单个的计算机形成的文件源,构成了世界上最庞大的p2p搜索引擎之一。 这种设计里的中心索引服务器只记录一些相对关键的信息,例如位置(IP,序列号),歌曲的名字,作者等,其它的信息一概可以从任何在线并且拥有本条全面信息的计算机上获取。同时p2p也可以根据搜索建立一些中间路由的缓存,即将一些搜索结果存在单个或者相近的节点上,加快搜索速度。 优点,可以超级大,基本上不需要有维护成本 缺点,中心服务器的更新效率很低,信息源不稳定 4. 局部遍历型搜索引擎 这类的搜索引擎又可以采用多种设计方案,其中比较可行的是对信息进行聚类后建立信息树,搜索时只需要从树的一个分支下去遍历便可以了。局部遍历应当有一定的规则,并且在设计初期就需要对每一个加入的索引进行相对准确的位置安排,使得放置在合适的节点上,以保证搜索的效率。 优点,容易解决抗压,搜索精度高,搜索效率高 缺点,设计复杂,调整索引所在节点的位置不易 总体来说,搜索引擎的设计方法可以很多,这里只是抛砖引玉,相信未来会有更多的巧妙的设计方案出现。...

Google 要通吃么?


Google 不断的往前赶路, 这不, 收购的Google 分析 analytics (Urchin)上线了. 简单的说这就是一个 referral 的记录分析工具, 一个专业的玩具. 顺便说一句, booso 的referral 依然工作, 最近也在进行代码更换和升级. 越来越觉得 google 变成了一个庞大的信息挖掘机器, 庞大而有绪. 看来, google 真的想通吃了....

博客搜索和博客联播发布

博客搜索一共收录了200多万的博客,一共索引600多万条记录。 博客联播是您随时发现新文章的一个来源,平均每天收录8万条记录,并且滚动播出(过滤程序将一些字数少于200,色情等的先过滤掉了),是中文博客的即时风向标。 Booso.com 最早是我在博客动力的时候业余时间利用refer 服务的数据制作的搜索引擎,今年年初因为事物繁忙,就逐渐荒废了开发,直到这次回国后才又有精力带领团队进行完善。Booso 从诞生到现在,一直是一个试验田,一共进行过如下的尝试:1] Referral 的服务 2] refer 和 关键词搜索的服务 3] 自动分类引擎的测试 4] 贴吧 5] 新闻搜索服务 6] 新闻聚类服务 7] 博客搜索服务 8] 博客联播服务。虽然前前后后历经一年之久,很多服务也是中途夭折,但是基本上正是这些尝试,我和我们的团队得到了很多锻炼和经验,这些财富才是最值得收藏的。 对于这两个服务,我和我的团队还在完善中,如果有好的建议或者砖头请不要吝啬。...

垂直与水平


最近"垂直"这个词非常火,似乎每一个人都在谈论垂直, 当然无法跟google,baidu进行竞争的时候每个人都会想到缩小战场, 收缩到一个相对小的范围. 那么水平呢? 其实很多的搜索并非是完全的垂直, 水平也是有用的. 集成方式的搜索搜索 超女或者搜索 天空是两个很好的例子, 站内外的blog和图片都可以方便的被搜索到. 如下图:...

Google的启示


最近在对现有的搜索引擎进行分布式的改进, 回顾以前阅读过的 google file system 的文章时发现google的思维和我们平时固守的思维很不一样, 可以说很多在我们看来是有一些"偏激"的,可是正是由于这些偏激, 才导致google与其跟随者的不同. 以下为几个例子: 1. google认为, 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象. 这个想法和我们通常的意识是相反的. 2. Google认为, 一旦写入, 再也不删除和修改. 这点上google认为修改和删除会对系统造成潜在的伤害, 例如文件的不连续性, 文件定位的困难.. 3. Google将Linux的 file system的block更改为 64M , 也就是说, 写文件的最小单元是64M, 而不是我们通常的512字节, 两者整整相差了128000倍. 4. Google认为修复是没有必要的, 当一个服务器出现问题的时候, 撤下来, 换上另外一个 google unit(google 单元)即可, 因为维修的成本远远大于直接上线一个全新的服务单元的成本. 说来容易, 其实只有当google结构真正实现高冗余和分布式这样的操作才可行, 而这些正是google的核心. 当我们设计一个系统的时候, 我们最简单的做法通常是会根据需求对已有的一些经验进行匹配, 这个过程中我们通常走的是近路,而且我们的经验常常会束缚我们的想法, 没有抛开经验进行全新的分析和设计, 也自然就难以有所创新....


博客手拉手


博客中国的[博客手拉手] 系统从推出到现在已经有两个月整了, 期间经过多次调整, 精确度和相关度都有明显的提升. 对于用户的任何一篇文章, 系统自动从以往的旧文章里匹配到最相关的5篇文章, 作为博客手拉手. 例子如下: 原文[Google Talk一出,MSN、QQ必死无疑] 匹配文章: [2005-07-15] QQ被MSN打败的10大理由 [2005-08-01] 腾讯QQ穿上西装挤入商务通讯 看TM激斗MSN [2005-07-19] 我看QQ、MSN、UC [2005-08-01] MSN、QQ走出虚拟空间走向实际应用 [2005-07-07] MSN Messenger ?c MSN Spaces 中?? 原文:我的5个怪癖 匹配文章: [2005-09-02] 我的5个怪癖 [2005-08-25] 我的5个怪癖,嘿嘿 [2005-08-23] 我的5个怪癖 [2005-08-25] 五个怪癖 [2005-08-29] 五个怪癖 下一步是什么呢? 也许一个月,也许两个月, 当新的博客平台出现的时候, 会有一些更有意思的玩艺....

搜索引擎的缓存机制


以前曾经提到过搜索引擎的缓存策略, 根据搜索引擎搜索的关键词的统计分布, 可以优化设计搜索引擎的缓存策略. 就普通的缓存策略上讲, 缓存是因为在一定的时间段内的搜索的关键词集中在一定的范围内, 并且这些搜索相对稳定. 例如每天搜索"美女"的人总有10万,20万, 而结果在这段时间相对稳定, 因此没有必要每次去检索索引文件, 而将上一个人搜索的结果直接返回便可以了. 搜索引擎缓存策略也同搜索引擎的算法密切相连, 除了搜索缓存, 索引缓存也是一个好方法. 独立或者分布一些权重较高的文档也是一种提高效率的方法. 例如我们有1000万的网页的权重(可以简单的理解为pagerank)比较高, 那么这些网页的排序相比另外一些权重较低的网页相对较为稳定, 就不妨独立出来进行相对独立的索引缓存. 关于缓存的分布, 一般的小型搜索引擎不会用到, 但是如果每天处理上亿次的搜索, 缓存的分布就应当有一定的分布规划, 例如根据提交的关键词构成hash table, 然后对应于不同的搜索服务器, 实现缓存的分布. 让我们看看实际例子吧, 我们拿百度, google, yisou, 中搜, tag.bokee.com 进行简单的测试: 因为测试, 要搜索一些在过去7天没有人搜索过的关键词, 或者组合词. 为了保证没有人搜索过, 我选择在各个搜索引擎里搜索"a s d f v g h" , 这是我在键盘上随机打出的一些组合, 相信这世界上在7天没有人相同搜索, 这样保证我的第一次的搜索是 fresh search, 就是一定需要搜索引擎去检索索引文件, 而不是通过缓存策略. 以下是结果: 百度: 0.279秒 google: 0.24 秒 一搜: 0.24 秒 中搜: 0.001秒(无结果!!!!) 博客搜索: 0.041 秒 下面是第二次搜索的结果: 百度: 0.001秒 google: 0.05 秒 一搜: 0.09 秒 中搜: 0.002秒(无结果!!!!) 博客搜索: 0.019 秒 经过简单的测试, 可以看出缓存机制只有在Baidu和google搜索引擎里都有, 但是各自效率不一样, 如下是简单的比例: 百度: 100 google: 5 一搜: 没有明显的缓存 中搜: 没有明显的缓存 博客搜索: 没有明显的缓存 而在缓存效率上百度要远远大于google, 这点大概是因为google的gfs本身的分布效率已经相当不错, 因此进行缓存也不会有数量级的提升. 而百度, 根据测试可能是集中方式的数据存储, 但是根据搜索进行hash分布, 因此才会在缓存上有显著的提升. (这个属于猜测)...

 

Tag Engine 测试发布(标签搜索引擎)


博客中国个人博客系统全面支持 tag, 支持 tag 并不是一件困难的事情, 困难的事情是要将这些 tag 如何处理. tag engine 即 标签搜索引擎是将这些 tag/标签 进行归类整理的搜索引擎, 是一个能够进行智能分类的搜索引擎, 希望借助这个搜索引擎将现有的众多的文章进行整理和分类. 这里我引用以前我写的一段文字: 什么是Tag 兼谈软分类- - 硬分类:就是已往我们发文章的时候通过选择系统现有的固定的分类。 软分类:根据文本或者信息的意义由信息的组织者为信息指定一个或者多个“标签”。 Tag(中文叫做“标签”) 是一种新的组织和管理在线信息的方式。它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。例如我可以为本文打上如下的标签: Tag、标签、分类、博客 标签的增加有信息的组织者自主添加,带有很强的个性化因素. 因此在个性中寻找共性将是一个Tag engine 区别于其它搜索引擎的一个特征....


Google Sitemaps 的意义


格式化网络是一个不可避免的趋势, Google 利用现有的品牌来进行推广他的sitemap (网站更新地图), 是一个google从主动角色到网站为主动角色的变换. 搜索引擎的主动性将由此转嫁到网站主并且"要求,希望"网站主来积极的配合, Don‘t be Evil 的口号的风险越来越高. 另外的思考: sitemap 和blog的 rss 又有什么本质的区别呢?...

Google网页加速器的工作原理

最近一直忙着写论文,周末终于有空放松半天时间,到网络上看看,铺天盖地的关于google最新的消息,原来google又出了新玩艺,Google Web Accelerator。 听说很神,特地找了一台Windows电脑准备一试。可是我去google网站下载时却发现google 说用户太多,不提供了。 感谢Owen硬盘里还有保留,终于得到了珍贵的“绝版”Google网页加速器。 我尝试访问了6个网站,并且分析了日志,基本上明确了Google网页加速器的工作原理,其实很简单:Proxy + 缓存。 1. 本地化的Proxy + 缓存 当运行了 google 的网页加速器,本机会启动一个httpd的服务,端口是9100 : http://127.0.0.1:9100 这个服务实际上是一个本地化的Proxy+缓存,就是所有的 http 的请求都是通过这里走的。那么为什么能够加速呢? 缓存。当你第一次访问一个网页的时候,相当多的图片,静态文字全部的存储下来,然后当你再次访问的时候,就直接从缓存里调出来,因此大大加快了访问速度。 我这里做了一个有趣的试验: 访问我自己的blog一个日志(http://blog.wespoke.com/archives/000907.html)的日志记录: adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:34:38 +0800] "GET /archives/000907.html HTTP/1.1" 304 - 刷新这个网页,Apache的记录仍然是 304。表明没有传输内容,紧紧验证了 expired的信息。 touch archives/000907.html (改变这个文档的时间标记) 再次刷新,这次不一样了: adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:35:28 +0800] "GET /archives/000907.html HTTP/1.1" 200 10319 这次是返回了200,并传输了10319个字节。 这个就是工作的原理,在第一种的情况下,节省了10319个字节的传输。 当然,这也是所有的缓存proxy的设计原则。 2. Google 的缓存+路由 当我发现我访问的日志上记录的IP和我本地的IP不一样的时候,看来Google 自己也还是有缓存服务器的,就是说当我们请求一个网页时,如果联接非常的慢,google会让这个请求通过google的缓存服务器,同时改变路由。这就是为什么看到的IP不是自己机器的IP了。 由此看来,Google的网络加速器实际上是一个个人的小型Proxy缓存服务器+Google帝国的一个格点状的Proxy缓存服务器系统构成并有效的来管理这些缓存,并非什么特别的技术,而是将大家忽视了多年的一些基本的概念从新应用了起来。 3. 看看这里就更加明白一些:http://race.google/http://www.wespoke.com,注意,必须启动了加速器后才能连接,因为google Web Accelerator讲这个域名解释为本机并采用Iframe显示。您可以将http://www.wespoke.com替换成您想要到达的网页,看看有没有加速? 关于加速的原理,你应该了解expired模块。 http://httpd.apache.org/docs/mod/mod_expires.html...

Google Pagerank 在玩弄谁?


其实 Google Pagerank 光辉的历史任务差不多已经完成,因此记得去年有人询问Google 说他们的网站的 PageRank 低的问题的时候,Google的答复是 Pagerank 是娱乐性质的,千万别当真。 其实说是娱乐,可是不当娱乐的人却大有人在,这不,昨天google pagerank更新了,就有人发email问我“你的单片日志如何做到 PageRank 6 的?”并附上了一个联接。 我记得我以前这个blog的PageRank是4,主站都才4,难道单篇日志能到6。打开一看(Firefox 的PageRank plugin),果然是6,不单这一篇,翻了几篇,竟然全部是6。 Google PageRank 真的有用么?说句老实话,我觉得真得就是一骗人的玩艺,还真得好多网站信誓旦旦打出这样的标语“本站只和PageRank >= 5 的网站做联接”,听起来就跟跟PageRank 低的网站做联接掉了身份似的。其实还不是被google 的Pagerank 给骗了? 可是话说回来,其实大家都很重视身份,有一个PageRank 5 ,6的网站特别是个人blog就跟被Google 授予了荣誉证书似的,有种特别的感觉。 PageRank 即便历史使命已经完成,可是造成的灾害却是后患无穷,例如现在的Link Spam,Comment Spam,refer Spam有哪一个不是Google PageRank 的影响造成的呢?想在互联网上挑战人们在道德和利益之间的选择,你会发现人们最终选择的是利益而不是道德。 垃圾留言泛滥的年代,是google PageRank 带来的唯一好处就是让这个互联网在道和魔的斗争中更上了一层。 附 一些网页的PageRank及其变动。 http://www.wespoke.com/ has PageRank 5/10. http://blog.wespoke.com/ has PageRank 5/10. http://blog.wespoke.com/archives/000925.html has PageRank 6/10. http://www.wespoke.com/archives/000922.html has PageRank 6/10. http://www.wespoke.com/archives/000931.html has PageRank 6/10. http://www.wespoke.com/archives/000932.html has PageRank 6/10. http://www.wespoke.com/archives/000934.html has PageRank 6/10. http://www.wespoke.com/archives/000935.html has PageRank 6/10. 以上是我的blog的PageRank,两个blog的首页都是PageRank=5,但是发现了我的blog一堆PageRank是6的单片日志。 最可笑的是这一篇: http://www.wespoke.com/archives/000935.html 因为是6,而且有一个联接,交互联接到下面这个网址: http://1001ml.blogdriver.com/1001ml/589835.html has PageRank 6/10. 这个日志的pagerank也是6了。 http://blogmark.blogchina.com/ has PageRank 5/10. http://www.365key.com/ has PageRank 6/10. http://niu.la has PageRank 4/10 前次提到社会书签的pagerank很低,刚发不久,365key就被google解封,这次一下子到了6. 比博采和niu.la都高了。 当然,也有不幸的: http://booso.com has PageRank 0/10. 被定义成了 spam 变成了0....


Google 为什么不支持Rss


看到不少人发表关于Google为什么不支持Rss的问题和看法,这个问题以前不止一个人问起过我,我坚持的看法是Google在有新的赢利基础替代搜索之前是不会支持Rss的,而且我也没有看出来Google需要支持Rss的必要。「虽然我会去Hack google的服务,使得自己有Rss可用」 因为Rss太简单了,简单到将搜索引擎的门坎到了一种令Google感觉到一种压力的地步。 利用rss,可以简单的绕过搜索引擎里面最复杂的一个环节:HTML parse的过程,而这个过程,是众多小型搜索引擎的门坎和瓶颈,因为Rss提供规整化的结构化的数据,使得搜索引擎数据整理的过程简单了许多。可以想象,如果Google支持Rss,那么等于将这个市场的门坎降低,会导致大量的小型的竞争对手来分享未被蚕食的long tail,Google还不至于傻到这个地步。 为什么MSN和Yahoo会支持Rss呢? MSN和Yahoo的赢利空间里不像Google那么纯粹的倚赖搜索,例如MSN和Yahoo都是门户,服务是其核心,而不搜索。要击败Google这个巨人,可以有很多种做法,其中之一就是培养市场,让搜索市场的门坎降低,培养很多Google的潜在对手,最终使得这个行业的利润薄利化,达到消减Google的目的。 难道MSN和Yahoo不会被消减