我叫刘跃进 电影天堂:[搜索技术]搜索引擎从入门到精通

来源:百度文库 编辑:偶看新闻 时间:2024/04/20 22:23:04
搜索引擎从入门到精通
陆元婕 2001.12
搜索引擎从入门到精通之一 基础篇
美美(15岁)爱上网,通常她就是泡聊天室、看新闻、玩网络游戏之类的,时间一长,觉得有些无聊了。这天美美问:“妮妮表姐,你整天上网做什么呢?”妮妮说:“上网查资料呀。查资料?”“怎么查?上哪查?……”美美一连串的疑问。妮妮说:“查资料当然是要用搜索引擎啊。我平时写论文用的资料、做主页用的图片、电脑知识、甚至电子版的小说、最新的CD试听都是通过搜索引擎找到的。还有,我的主页这半年访问量剧增,也要归功于搜索引擎啊。”
搜索引擎?美美觉得挺奇怪的:“这搜索引擎有这么大威力?嗯,我也要学习用搜索引擎。”“可以啊,不过,最近我挺忙的,要不,先让小张(妮妮的男朋友)教你一些基本知识吧。”
“美美,学习使用搜索引擎先要了解一些基本知识,可是有点枯燥哦,要有心理准备哟。”小张在旁边嘿嘿的笑着。美美嘴里哼了哼:“谁怕呀,来吧。”小张清了清嗓子,开始了讲解:
“十几年前,WWW(World Wide Web,万维网)还没有出生的时候,互联网上只有冰冷的文字,没有图像和声音,而且网站数量也不多,感兴趣的网站就那么几个,可以在很短的时间内就掌握其中的全部信息,搜索引擎完全没有出现的必要。1993年,互联网上出现了最早的Web浏览器Mosaic,次年Netscape推出了Navigator。浏览器的发展促使Web得到迅速推广,站点数目以惊人的速度增加,我们再也不能用传统记忆方式来应付与日俱增的站点。于是,搜索引擎就诞生了。第一个搜索引擎的出生地在美国,它的名字叫Archie,是由McGill大学的一个小组开发的。”
“早期的搜索引擎是把互联网中资源服务器的地址收集起来,由其提供资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按它们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这种方式,只适用于互联网信息并不多的时候。”
“随着互联网的信息按几何式增长,搜索引擎开始快速发展。1994年春天,世界上出现了真正意义上的搜索引擎——Lycos。随着Yahoo!的出现,搜索引擎的发展也进入了黄金时代。搜索引擎家族不断发展壮大,逐渐分布到信息世界的各个角落,它们的种类、技术也在不断的发生变化。”
美美听了半天,嘴越张越大:“哇,没想到搜索引擎也有这样的历史呀。”
“那当然了,别打岔,下面要讲搜索引擎的分类及原理了,仔细听着。”
“尽管目前存在数量众多的搜索引擎,但按照它们信息搜集方法和服务提供方式的不同,可以大致划分为三大类型。”
“我们先来讲讲基于蜘蛛程序的的机器人搜索引擎,这种搜索引擎由一个称为蜘蛛(Spider)的机器人程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。”
美美又忍不住了:“太难了,我听不懂。”
“听起来感觉很复杂吧?简单讲,就是由程序自动抓去网上的信息,‘搜索引擎’这个词的原义就是指这种狭义的搜索引擎。”
“该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Excite、Inktomi、FAST、Lycos、Google;国内代表为:百度、OpenFind等。”
“哦,我这下我明白了,而且我还知道Google呢,好有名的。呵呵!你接着讲吧。”美美终于弄懂了。
“接着给你讲引擎目录式搜索引擎,它是以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的国外代表是:Yahoo、LookSmart、Open Directory等;国内代表有新浪网、搜狐等的网站目录。”
“美美,美美,哎,你在干嘛哟,睡着了?”
“哪里呀,我只是在想它和前面那种搜索引擎有什么不同嘛!”
“哦,我正要讲呢。目录的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。”
“目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于Robot的搜索引擎之间的一大区别。”
“最后要讲的是Meta元搜索引擎,它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等,国内的一网打尽、飓风搜索通等提供类似的功能。”
“我真不知道搜索引擎还有这么多名堂呀,真是长了见识。”美美感叹道。
“呵,这还只是开始呢,今天我们就到这儿了,你也该休息了,下次我们再继续吧。”
搜索引擎从入门到精通之二 基本方法篇
上次在基础篇中我们已经向大家介绍了搜索引擎的历史以及分类,让同学们对搜索引擎有了一个基本的了解,今天 我们就来向大家介绍搜索引擎使用的基本方法。现在就跟我来吧。
又是周末了,美美大清早就从床上起来,她还一直惦记着学习搜索引擎的事呢,赶紧找来妮妮姐和小张哥,催着他们开始讲课。看着美美的积极样,小张和妮妮只好从命。
“目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则,确定你要找的网站应该在哪个分类,然后逐级点击寻找。这种方法在你需要寻找某一类网站时效果较好,不过,这里必须提醒同学们的是:各搜索引擎的目录分类原则不尽相同,而且还经常变化,并且随着网站数量呈几何级数增长,你需要点击翻找的页数也会越来越多。
如果我们需要根据一些特定的条件来搜索,就最好使用关键词搜索的方法,现在就跟我一起来学习一些基本的搜索的数学规则,以便使搜索结果更迅速准确。下面Google为例来介绍。”
一、查询条件具体化
“你的查询条件越具体,你就越容易找到你需要的资料。所以别怕在搜索引擎中输入有点复杂的搜索条件。”
“举例来讲,如果你想找一些有关‘Excel的数学函数的使用方法’的资料,你可搜索 ‘Excel数学函数 ’(Excel和数学函数之间用空格隔开),不要仅查询‘Excel’。试比较这两种查询所返回的结果。第一种搜索条件返回了64项搜索结果,而第二种搜索条件返回了3,100,000项搜索结果。显然输入较具体的条件可以过滤掉大量的无用信息,从而减少我们的工作量。”
二、使用加号
“有时我们需要搜索结果中包含有查询的两个或是两个以上的内容,这时我们可以把几个条件之间用“ ”号相连。比如说想查询王菲的歌曲《香奈儿》,你可以输入
‘王菲 香奈儿’(小张此时在屏幕上两个词之前输入的是空格)……”小张刚要继续往下讲时,美美喊了起来:“等一下!”
“怎么了,哪儿不对吗?”小张问。妮妮也奇怪的看着美美。 “哎,为什么你在两个词语之间输入的是空格而不是‘ ’号,空格和加号不一样啊。”
小张和妮妮相视一笑。“我来解释一下吧,”妮妮站起来说,“美美观察得很仔细,学得很认真。其实大多搜索引擎用空格的查询结果和用加号是相同的,这方面可以参看具体的搜索引擎的帮助说明。再说明一下吧,省的美美越听越糊涂。小张介绍的是搜索的基本数学规则,这些规则表现在不同的搜索引擎中是有少量的差别的。所以,美美要想真正的会使用各种搜索引擎,还是要好好看看各搜索引擎的搜索帮助,要记住哦。”
“嗯,知道了。小张,继续讲吧。”
三、使用减号-
“有时你可能在查询某个题材时并不希望在这个题材中包含另一个题材,这时你就可以使用减号了。”
“什么嘛?这么复杂,讲简单一点啊。”
“别急,举个例子就明白了。比如你想查找‘刘德华的歌曲《享用你的姓》’,但又不希望得到的结果是RM格式(Realplayer)的。你就可以输入“刘德华 歌曲 享用你的姓 -RM”,记住一定要在减号前留一个空格位。”
“哦,原来是这样,我来试试看。嗯,真的不错耶,搜索结果比不用减号时少多了。”
“是的,减号的作用就在于可以使搜索结果集中反映你的需求,让你无须为大量无关的搜索结果而头疼。”
四、使用引号“”
“你已经学会加法与减法,现在可以学乘法了,在搜索引擎中,乘法的公式是:‘短语’。使用这一公式可以保证你的搜索结果非常准确。因为,即使是有分词功能的搜索引擎也不会对引号内的内容进行拆分。在很多搜索引擎中,给这种查询方式起名叫短语查询,或者专用词语查询。这一方法在查找名言警句或专有名词时显得格外有用。
美美这时插了一句:“什么叫分词功能啊,介绍一下嘛!”
“看你急的,简单来讲分词就是把词语进一步划分。比如,将一个长的词组甚至句子分成多个词语。分词的方法有很多,比如最小分词法、最大分词法之类的。分词技术主要是用在像中文、日文这样的亚洲语言。因为这些语言字与字之间,词与词之间是没有空格的,它在搜索引擎中的应用也是最近几年的事情了。像Google可以对中文句子作智能化处理,会自动把句子分割成词语作为关键词。”
“明白了,你继续说吧。“
“好,我们还是言归正传。其实,关于基本的数学规则已经讲得差不多了。在有些搜索引擎中还会支持什么通配符之类的,因为并不普遍,就不多说了。美美,多多练习一下。试着用这些原则在搜索引擎中找找你将来想考的大学的网站吧。”
“好的,谢谢小张。我去试试了。”美美去练习了。过了一会,她又垂头丧气的来找妮妮:“妮妮,很奇怪啊,怎么这些方法不好用呢?我还是找不到要找的资料。” 妮妮笑着说:“别急别急,搜索是有很多技巧的。不过,美美,最好你能把要搜索的问题列出来,我好有针对性地介绍。”
“嗯,谢谢妮妮。那么我去把问题写出来吧……”
搜索引擎从入门到精通之三 使用技巧篇
“美美,问题列出来了吗?”
“嗯,给你看吧。大部分都不是我想要找的。搜索引擎还是不好用。”
“美美,别急,会有办法的,我们一起来找找看。”
司坦福大学——用Google、新浪都没找到与之相符的网页
歌星王菲 精选专辑 -rm——用新浪和Google都没找到有价值的结果
世界杯预选赛 最新新闻——用Google找的都是旧闻。用新浪倒是找到了一些,可是点击过去一看链接的不对啊。
大连 天津街 地图——用Google、新浪都查不到有用的信息。
IT 新闻——在Google中给出的都只是新闻,而没有IT业的新闻。不过新浪倒是不错,有相关的新闻。
看到美美的这张问题列表,小张和妮妮私下研究了一会。 “这些其实不难找。先让小张给你介绍一些基本的搜索技巧吧。然后我们再实战演练几番。”
“好啊,真的能很快就学会搜索吗?我会努力的。现在开始吧……”
一、选择合适的搜索工具
“每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。之前已经介绍过了搜索工具基本上可以分为网页检索(也就是上次说的基于蜘蛛程序的机器人检索系统)和分类目录(即目录式搜索引擎)两种(我们先不谈元搜索引擎)。”
“网页检索实际上是网页的完全索引。分类目录则是由人工编辑整理的网站的链接。”
“这两种搜索工具哪种好用呢?”
“这取决于你想查询的问题。一般来说,如果你需要查找非常具体或者特殊的问题,用网页检索比较合适;如果你希望浏览某方面的信息、专题或者查找某个具体的网站,分类目录会更合适。”
“要是你需要查找的是某些确定的信息,比如Mp3、地图等,就最好使用专门的Mp3、地图等搜索引擎。”
“有这样的专业搜索引擎吗?”
“当然,实际上几乎每一类信息都有非常专业的搜索工具,它们有个名称叫垂直搜索引擎。比如赛迪网的IT罗盘就是以精选式IT垂直搜索为特征的搜索引擎。”
二、使用正确的搜索词
“使用搜索引擎要注意不能写错别字,此外要尽量使用大家比较常用的词语。”
“这是为什么呢?”
“就目前而言,多数搜索引擎不支持容错查询。所以,一定要注意不写错别字。”
“容错查询,就是指即使用户输入了错别字,搜索引擎也能根据某种规则推断出该词的正确写法,给出正确的搜索结果。”
“由于互联网的信息是人来提交的,如果你使用了不常用的词语来搜索,就不大容易找到答案了。比如,你想查有关鼠标的信息,但输入的是‘滑鼠’(港台地区用语),就不容易找到资料了。”
三、正确使用布尔检索
“正确的使用布尔检索方式可以减少搜索结果的返回数。”
“什么是布尔检索?我好像没听过”。
“布尔检索,就是应用布尔表达式的检索方式,比如‘和’(And)、‘或‘(OR)、‘非’(NOT)。其实前面介绍的搜索的数学规则就是这种布尔检索。加号就相当于和,减号就相当于非。而或关系没有介绍,它并不是很常用的检索规则。在搜索时一方面要注意不同搜索引擎工具的布尔检索的表达方法。另一方面,也要注意自己要搜索的内容逻辑关系是否合理。”
四、在点击之前要思考
“成功的搜索=正确的提问 点击有用的结果。”
“这么深奥?解释一下吧。”
“就是说要想得到满意的搜索结果除了要注意搜索条件之外,还取决于你最终点击的那个搜索结果。” “在返回的搜索结果中究竟哪个是真正满意的?在点击之前,你需要通过比较排序位置、网址链接、文字说明等来分析。关于这方面的知识我们在实战演练时再学习。”
五、在实践中取得搜索经验
“搜索技巧和其他的技术一样是在不断练习中总结与成熟起来的。因此你必须不断练习、不断总结。”
“同时,通过练习总结,你可以形成自己的一套有效的搜索习惯。这将有助于更快的完成搜索。好像美美现在这样,遇到一点困难就打了退堂鼓,可是不行的。”
“好了,基本的搜索技巧先讲到这,关键还是多加练习。我们就以美美在搜索时遇到的那几个问题试一下这些搜索技巧吧。” “先让我来试试。我好像已经找到一些原因了。”
“那就说说看吧。”
“司坦福大学,是错别字。应该是斯坦福大学。”
“歌星王菲 精选专辑 –rm,是不是搜索条件太多?试一下,输个简单点的‘王菲 专辑 –rm’,找到了。”
“不仅是这个原因。你要搜索的关键字要符合习惯。这方面,新浪的帮助信息的有介绍。”
“世界杯预选赛 最新新闻。这个问题怎么解决呢?”
“用Google找到的结果确实是比较旧,因为目前Google的搜索数据库的更新是每月一次(平均为28天),所以显然用它来搜索新闻是不合适的。”
“而你在新浪遇到的是死链问题。死链对于搜索引擎而言是很正常的,这不是我帮搜索引擎开脱。实在是因为互联网的信息更新的太快,它不容易抓取。除了死链问题,以后你还会遇到很多属于搜索引擎的不足之处,比如它对于动态网页处理能力不强之类的。”
“那有办法找到这些死链的内容吗?”
“办法有一些。比如google就采用了网页快照的技术。这个我们会在实战演练中详细介绍。”
“另一个办法是:运用一些侦察技巧,加上你的好运气,有可能会找到。”
“什么侦察技巧?”
“由于死链有时是因为网站制作者将文件更换路径而搜索引擎没有及时更新造成的。”
“据此,我们可以使用一种叫做‘URL退选’的方法。也就是将地址栏的网址的文件名一点点删除,在碰到第一个斜杠后停止,然后敲回车键。重复此动作,不断尝试。运气够好的话,就能找到了。”
“听起来很复杂啊。”
“要是你了解一些网站发布的知识会比较容易懂。虽然这种办法并不总有效,但是还是值得尝试的。”
“大连 天津街 地图,这个是不是该用地图搜索引擎?”
“对。比如Go2Map,ChinaQuest之类的地图搜索引擎就能查到。”
“IT 新闻,为什么会查不到呢?”
“这个估计是因为StopWords造成的。”
“什么是StopWords?”
“这个涉及一些搜索技术方面的知识了。就拿英文而言,有大约300个最常用单词本身缺乏实际意义或者使用过于广泛,一旦用来搜索的话,会返回大量的无用的搜索结果甚至导致搜索引擎错误。因此很多搜索引擎都会屏蔽这些关键词。”
“那在新浪怎么就能找到呢?”
“新浪能够给出正确结果可能与它的搜索引擎服务提供商百度的技术有关。”
“太好了,我的问题几乎都解决了。我还想学习更多的搜索知识呢?你们继续教我啊。”
“可以啊,下一次我们会介绍几个比较常用的搜索引擎。”
搜索引擎从入门到精通之四 Google实战篇
“妮妮,今天给我讲讲Google吧?听说它是目前最好用的搜索引擎之一。”
“好。Google的确是非常好用的搜索引擎。我记得Google由两个斯坦福大学博士生Larry Page和Sergey Brin设计,于1998年9月发布测试版,一年后正式开始商业运营。Google发布至今才不过短短几年,就由于对搜索引擎技术的创新而获奖无数。它最擅长的是易用性和高相关性。”
“不仅如此,”,小张接过话题说,“Google提供一系列革命性的新技术,包括完善的文本对应技术和先进的Page Rank排序技术,还有非常独特的网页快照、手气不错等功能。此外还有很多英文站点的独有功能,比如电话搜索、地图搜索等等。” “嗯,我在它的网站帮助中看到过一些介绍,可是有些地方还是搞不大明白究竟该怎么用。要不,妮妮就结合实际例子给我讲讲吧。”
Google入门知识
“Google支持大多数的搜索基本语法规则,比如‘ ’、‘-’、‘OR’。Google无需用明文的‘ ’来表示逻辑‘与’操作,只要空格就可以了。Google用减号‘-’表示逻辑‘非’操作。Google用大写的‘OR’表示逻辑‘或’操作。”
“需注意的是,Google不支持通配符,如‘*’、‘?’等,只能做精确查询。Google对英文字符大小写不敏感,‘GOD’和‘god’搜索的结果是一样的。Google的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。”
“这些知识在Google的帮助中都可以看到详细的例子,想来美美一定看得懂,我就不在这举例了。”
Google特色服务
“Google提供很多非常有特色的功能,比如前面介绍的‘网页快照’,‘手气不错’等。这些辅助功能会帮助使用者更快速、方便的找到需要的资料。”
“比如Google的专利网页级别技术Page Rank能够提供高命中率的搜索结果; Google的搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介;Google智能化的‘手气不错’功能,提供可能最符合要求的网站;Google的‘网页快照’功能,能从Google服务器里直接取出缓存的网页。”
“咦,美美你在想什么?”
“这些特色服务听起来是不错,可是有什么用呢?比如‘网页快照’?”
“还记得上一次你遇到过的死链问题吗?你想,要是有这个网页快照的功能,即使是死链不也可以看到具体的网页内容了吗。”
“有道理啊。那Google要有多少地方放这些网页啊。”
“据说,今年上半年,Google就宣称有超过1万台服务器了。”
Google高级搜索
“Google支持很多高级搜索的语法格式,比如site、link等。这方面挺复杂的,你还是看看这个表格自己试试看吧。”
“对了,表格中所列出的也是一些比较常用的语法规则,更多特殊的用法还需要在实践中慢慢积累。”
特殊操作符 语法说明 语法规则 注意事项 用法举例
site 搜索结果局限于某个具体网站或者网站频道。 site频道名.网站名.域名
如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。
网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。 搜索包含“刘德华”和“张学友”的中文新浪网站页面,搜索:
刘德华 张学友site:sina.com.cn
link 返回所有链接到某个URL地址的网页 link:频道名.网站名.域名 “link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被忽略。 搜索所有含指向Google “www.google.com”链接的网页
link:www.goole.com
inurl 返回的网页链接中包含第一个关键字,后面的关键字则出现在链接或者网页文档中 inurl:关键字1 关键字2 “inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。Google对“cgi-bin/phf”中的“/”当成空格处理。 查赛迪网站上关于Excel函数的资料。
inurl:excel 函数 www.ccidnet.com
Google特殊功能
“上面介绍的是一些Google的综合搜索使用方法方面的内容。随着Google的不断发展,它也逐渐开始提供更多的垂直搜索的功能。比如目录服务、新闻组检索、PDF文档搜索、地图搜索、电话搜索、图像搜索,还有工具条、搜索结果翻译、搜索结果过滤等更多的功能。”
“哇, Google有这么多功能?天,要讲多久才能讲完啊。”
“是呀,所以……”,妮妮神秘的一笑,“我和小张决定不再讲Google了,我们把这些功能的网址给你,你自己摸索使用,到时候也教教我们。因为,其实很多功能我们也还没用呢。”
分类目录http://directory.google.com/
工具条http://toolbar.google.com/
新闻组http://groups.google.com/
PDF搜索语法规则:inurl:pdf 搜索内容
图像搜索http://images.google.com/
搜索结果翻译http://www.google.com/preferences
更多搜索内容http://www.google.com/
搜索引擎从入门到精通之五 国内篇
“妮妮,Google真的很好用,这些日子仔细研究,嘻嘻,不好意思,就是试了试Google的功能,越来越喜欢用了。可是,Google到底是国外的产品,国内的搜索引擎有没有类似的呢?”
“看来美美很……啊。要说国内的搜索引擎不能不提百度。年轻的百度公司自2000年6月起迅速地拿下了硅谷动力、Chinaren、搜狐、新浪、21CN、广州视窗、263、TOM等门户网站的全文搜索引擎服务,成为中文检索市场中的佼佼者。百度的成功不但使中国网民有更好的搜索体验,也激励了同行的进取心,使得国内中文搜索引擎的发展进入你争我赶的良性发展时代。”
“啊,那么多著名的网站的搜索引擎原来使用的是同一家搜索引擎服务公司的服务啊。那岂不是用哪个都一样了。” “不完全如此。大部分网站使用的是百度公司的网页搜索服务,并且这一服务也是按照各个网站的个性化要求重新设定的,因此仍然是各具特色。”
“咦,你好象没有提到网易和Yahoo?”
“美美果然是变成搜索通了,网易、Yahoo使用的是Google的网页搜索服务。”小张说。
“原来如此。”
“既然美美已经掌握了大部分的搜索方法与技巧,我看在各家搜索引擎的使用方面由美美自己练习就可以了。我们主要介绍一下各家搜索引擎的特点吧。
你看呢,妮妮?” “好,那我们就介绍几家比较有代表性的吧。就介绍新浪、网易、搜狐、263。”
新浪
“新浪搜索是目前互联网上规模最大的中文搜索引擎之一,网站收录资源丰富,以中文网站GB码为主。分类目录规范细致,层次合理,遵循中国用户习惯。”
“去年,也就是2000年11月,新浪搜索推出了新一代综合搜索引擎,这可是中国第一家可多个数据库查询的综合搜索引擎啊。”
“综合搜索是怎么回事?”
“所谓综合搜索就是一次输入搜索关键词,符合查询条件的搜索结果,不管它是新闻、网站还是网页都会显示在用户眼前。”
“噢,这多方便啊。连新闻都可以搜出来?”
“是。全新的新浪综合搜索方便实用,省却了用户分门别类搜索的麻烦.这些全方位的资讯依照与搜索条件符合的程度排列,在保持快速、准确的基础上,给用户提供了更多的选择。”
“这挺抽象的。让我来试一下,在新浪搜索中输入‘刘德华’,天啊,不仅可以查到关于刘德华的网站,还可以搜索到关于刘德华的最新动态、照片等等许多信息。太好了。”
“同样的,搜索‘mp3’,就可以轻而易举地搜出各种关于mp3的目录和网站;mp3播放机的图片;在新浪内容板块中找到诸如:最新的mp3播放软件、mp3播放机、MP3的数码相机等及时、详尽的相关信息;在商品信息中了解最新mp3产品的品牌、价格、技术参数等资料。”
“新浪搜索还有一些特点。比如,在搜索结果相关方面提供与所搜索的关键词最为相关的部分内容供选择。当搜索‘oicq’时,在给出包含符合搜索要求的目录、网站、新浪内容、商品信息等综合结果外,还会根据以往用户的搜索习惯提供诸如:icq、腾讯、oicq工具、腾讯oicq、oicq下载等相关的关键词供选择,如果用户正好接下来想搜oicq工具的相关内容,只要在网页上给出的oicq工具这个词上轻轻一点就可以了。”
“对了,其实关于相关关键词这一技术可并非是新浪独有的,其实这是百度公司的技术,所以,百度的客户,比如搜狐、263等都有这一功能。”
“此外,新浪搜索特别设有搜索论坛,如果用户在搜索中有什么不明白的地方,或是有一时搜不到的东西,到搜索论坛中提问,就立即会有热心网友解答,形成了一种搜索教帮的文化。”
“是啊,搜索论坛可是很有人气的啊。其实,我和小张的很多搜索知识都是从论坛里学来的。搜索论坛里的VIP网友以及坛主可都是知识丰富的搜索高手呢,比如搜索引擎9238、shuxun、wyle等等。”
网易
“网易搜索引擎采用模糊搜索方式(就是我们之前提过的智能分词技术)对用户输入的关键词,先作语言分析,分解成多个词或词组,再去数据中心匹配结果,因此允许用户输入整句。” “真的呀。那可太方便了,有时候我就是搞不懂该用什么样的多个关键词搜索。”
“网易搜索引擎提供多语言检索,英语,日语,俄语等几十种语言关键词都可以直接输入搜索框检索网页资料。其实这应该算是Google的功劳。”
“此外,网易拥有全国最大的开放式管理目录ODP,有约5000名各行业目录管理员负责管理网站注册信息。美美,是不是想知道ODP是怎么回事啊?”
“嗯,什么是ODP?”
“ODP是Open Directory Project(开放式目录管理)的缩写。 从诞生至今,只有短短三年的历程。1998年6月,当时一位程序员Rich Skrenta对Yahoo!的搜索结果中经常出现老的和死的链接感到非常厌烦,于是他在Internet上发出了倡议,请求位于全球各地的Internet用户都志愿来帮助编辑这个目录。倡议很快得到了很多热心志愿者的支持,于是划时代的管理方式ODP就此诞生。国外比较著名的ODP网站当属Dmoz,它由4万多名志愿编辑免费,提供给任何个人和组织免费使用。Google的网站搜索其实就是Dmoz的杰作。”
搜狐
“搜狐公司于1998年推出中国首家大型分类查询搜索引擎,经过几年的发展,其内容更新迅速,网站收录资源丰富,以中文网站为主,如今累计收录中文网站已达150多万,?每日浏览量超过800万。搜狐有很多技术、功能与新浪类似,在此就不多说了。”
263首都在线
“263首都在线的搜索引擎可谓百度公司技术的完美体现,因为它从网页搜索到网站搜索都使用了百度的技术,为广大中文网络用户提供丰富有效的目录指南服务和全文检索服务。它比较有特色的地方是除了提供基本的分类查询和关键字查询,还为用户增加本周新站、好站推荐、热门关键字搜索、专题搜索、搜索留言版等多项服务。”
“好了,国内几大搜索引擎的情况就介绍到这里,此外还有很多比如天网、网擎、中国导航等等,美美可以通过阅读相关的搜索文章了解。”