剃刀边缘电影下载:元搜索引擎揭密

来源:百度文库 编辑:偶看新闻 时间:2024/04/27 21:28:47

[返回]
中国计算机报2000年第27期

元搜索引擎揭密

张 蕊

  随着Internet的极度膨胀,我们越来越依赖于各种搜索引擎查找信息。但是,它们的可信赖度到底有多大呢?根据专家的评测,目前主要的搜索引擎返回的相关结果的比率不足45%,而且由于机制、范围、算法等的不同,导致同样一个检索请求在不同搜索引擎中的查询结果的重复率不足34%。因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎的出现,在一定程度上解决了这些问题。


  什么是元搜索引擎


  元搜索引擎(Metasearch Engine),被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,而且即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此成为倍受推崇的检索首选入口。

  目前,对于元搜索引擎有很多误解,许多人认为不过是多个独立搜索引擎的堆积,简单的集中调用而已。事实上,一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。当然,目前有不少元搜索引擎并不完全具备以上三点,像All-in-One Search Page(http://www/allonesearch.com)、Beaucoup!等,其机制和功能有待进一步完善。

  元搜索引擎有多种分类方式。根据用户应用模式,可分为基于Web的免费搜索引擎、可供免费下载的客户端桌面应用型、可共享或授权使用的桌面应用型,其中第一种类型最常见、使用最广泛。根据调用独立搜索引擎的方式,可分为串行调用处理、并行调用处理、并串结合调用处理,不同处理方式将导致不同的检索效果。除此之外,还可以根据有无独立的引擎数据库进行分类。


  如何评价和选择元搜索引擎


  由于搜索引擎间的个体差异性很大,很难进行精确的对比,下面是几个主要指标:

  1.是否允许用户浏览并选择要调用的独立搜索引擎。看起来这是一个很简单的问题,其实不然。有许多元搜索引擎将这些信息隐藏在联机帮助或高级检索项中或根本没有体现。好的元搜索引擎要能够提供一个一目了然的、可供浏览和选择的引擎列表,并允许用户设置调用方式。

  2.是否覆盖多种网络资源类型,是否可提供主题范畴的目录服务。有许多元搜索引擎,除了搜索引擎数据库外,还可以选择搜索Usenet、Newswires、DejaNews、MP3文件、图像文件、声音文件等类型的其他网上资源,并提供基于主题范畴的目录检索服务。有些元搜索引擎的主页还提供了频道服务、专用搜索引擎导航服务等。

  3.是否支持逻辑匹配检索、短语检索、自然语言检索等高级检索特性,是否能够实现检索请求的“本地化”转换。目前,大多数元搜索引擎支持匹配检索、逻辑检索、短语检索等主流检索特性,有些还支持自然语言检索。但这些还不够,还必须实现不同搜索引擎间特殊检索语法规则之间的转换。如对于不支持“NEAR”算符的搜索引擎,要自动实现由“NEAR”向“AND”算符的转换等,否则将失去很多重要的高级检索功能。这一点已经成为选择何时使用何种元搜索引擎的关键因素。

  4.是否提供了足够多的检索选项和功能设置。主要包括:是否有最长检索时间设置,是否支持并行检索,是否提供高级检索服务,是否可设置每个搜索引擎返回的检索结果数量,是否能够自动检查链接的有效性,是否提供URL注册等附加功能等。

  5.是否提供多种检索结果输出格式,检索结果的信息描述是否全面等。最常见的形式是,将各个独立搜索引擎返回的结果进行集中的去重处理后,以统一的输出格式和相关度指标进行排列输出。常规信息描述主要包括资源名称、URL、源搜索引擎、源搜索引擎提供的摘要信息等。好的元搜索引擎,还要能够显示出该记录结果与用户检索需求的相关度,尽可能降低用户的决策负担。


  元搜索引擎的局限性


  元搜索引擎的局限性和优越性是一样显而易见的,有人比喻为“最低常用分母(lowest-common-denominator)”效果,主要体现在以下几个方面:

  1.检索性能的局限性。元搜索引擎实现检索语法转换的能力是有限的,而且高级检索模式常常只是注册或定制检索中的一部分,更适用于单用户计算机环境。另外,由于元搜索引擎不支持指定字段检索等特殊检索特性,不能发挥各个独立搜索引擎的高级检索特色,影响了检索效果和质量。

  2.调用搜索引擎的局限性。大部分元搜索引擎只支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等主要的搜索引擎,有许多大型搜索引擎被排除在外。如大部分元搜索引擎不包括NorthernLight、HotBot等,影响了信息搜索的覆盖面。

  3.检索结果在数量上的局限性。检索速度的限制从一个侧面反映出了元搜索引擎在检索结果的数量上的局限性,也就是意味着只能从各个独立的搜索引擎中检索少量的最符合要求的命中记录,一般限定在10~50个之间,因此必然影响了检索结果的全面性。

  应当说,元搜索引擎在查准率上不一定强于其他独立搜索引擎,但是由于能够在多个搜索引擎中搜索,必然能够提供更多的机会。


  表现出色的几个元搜索引擎


  1.ByteSearch

  http://www.bytesearch.com

  是一个检索界面极其简洁、以检索速度著称的元搜索引擎。其搜索覆盖范围比较广泛,包括Web、城市信息、公司名录、域名、FTP网站、多媒体、新闻组、包裹跟踪等,并提供新闻浏览、URL提交、最新的20个检索浏览、联机商店等内容方面的服务。针对不同的资源类型,用户可选择完全匹配(All)、部分匹配(Any)、短语检索(Phrase)等特性检索功能。检索结果经去重处理后,以相关性排序,一次显示15条记录,显示内容包括网页名称、URL、文摘、源搜索引擎。最大的缺点是,没有提供源独立搜索引擎列表,用户不能控制源搜索引擎的选择。

  2.Mamma

  http://www.mamma.com

  自称为“搜索引擎之母”的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。

  3.MetaCrawler

  http://www.metacrawler.com

  是Go2Net的一个组成部分,是公认的功能强大的元搜索引擎。除支持调用12个独立搜索引擎外,本身还提供了涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。

  4.Profusion

  http://www.profusion.com

  是一个优秀的智能型元搜索引擎。在其检索界面上提供了尽可能多的检索选项,包括:检索类型(简单、All、Any、布尔、短语)、结果显示(1~10、1~20等)、摘要选项、链接检查、搜索引擎选择(根据检索需求动态的提供最好的3个、最快的3个或全部、自定义等),可搜索资源范围涵盖娱乐、健康、体育、MP3、Usenet等,并支持个性化设置,自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等。另外,Profusion提供了比较丰富的检索技巧和FAQ内容。

  5.SavvySearch

  http://www.savvysearch.com

  可调用200多个搜索引擎或指南,内容涵盖新闻、共享软件、Usenet等27个主题范畴,一次可并行调用5个搜索引擎,也可以作为一个专用搜索引擎的导航工具使用。简单的搜索界面允许用户选择搜索类目,支持And和短语检索类型。最具特色的是其个性化检索设置服务,用户有机会从100多个搜索工具中选择调用并指定重要性系数(First、Middle、Last),建立自己的搜索模型。用户可选择显示搜索引擎的所有搜索结果,默认值是每个搜索引擎返回20个命中记录,并以相关度排列输出。SavvySearch同时提供23种语言版本,但其高级功能只适用于英文版。