us015超声波原理图:中文搜索引擎的现状与展望

来源:百度文库 编辑:偶看新闻 时间:2024/03/29 20:38:16

中文搜索引擎的现状与展望      返回


    随着信息科学的进步与互联网络的发展,网络上的信息资源越来越多,公用数据库的飞速发展为用户查询各种信息提供了可能。我国有数以百万计的网络用户并且用户人数仍然在急剧的增加。随着计算机技术、网络技术及通信技术的发展,各种相关信息愈来愈多地通过网络为人们所利用。而用户深感困惑的是很难在浩瀚如海的信息网络空间里快速、准确的查找到所需要的信息。当用户面对成千上万的超级链接时便难以检索到合适的信息。于是,借助搜索引擎进行搜索就是一个非常重要的手段。
    1、国内各种搜索引擎的现状
    搜狐(http://www.sohu.com.cn):“搜狐(Sohu)”是由爱特信(ITC)公司于1998年2月25日在京隆重推出的有“中文网路神探”之称的大型网上中文查找工具,其技术是由麻省理工学院支持的。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用习惯相结合,由编辑人员分类,因而分类质量较高。它的信息抓取范围较其它中文搜索引擎的范围要广,不仅有国内站点,还包含国外的中文站点,日访问率达上万人次。“搜狐”还提供“新闻导读”、“娱乐天地”、“企业集锦”和“网猴”等服务项目。进入“新闻导读”栏目可阅读由ITC整理的新华社环球新闻,包括“业界动态”、Internet、Intranet和“电子商务”四个栏目的新闻。“企业集锦”是将国内的企业分类集中提供给用户,为用户查询提供方便,更重要的是为企业宣传又提供了一条有力的渠道。
    天网(http://pccms.pku.edu.cn:8000/gbindex.htm):“天网”是由北京大学计算机系统网络研究室开发的网页资源索引的查找服务系统,是CERNet“九五”攻关项目的一部分,信息来源是国内CERNet、ChinaNet、CASNet、GBnet四大网络,采用Robots(一种自动跟踪、浏览网页并进行标引的智能软件)自动发现和收集信息,已收集了5千多个网站上的60多万网页信息,同时还收集了约10万篇新闻信息。该系统有中、英文两个界面,可进行中英文关键词的检索,支持复杂查询,检索速度快,反馈信息丰富,包括网址、摘要、最后修改时间、长度、相关度、编码类型等。
    新浪(http://www.sina.com.cn):“新浪(Sina)”是最大的中文门户网站,收录了全球资讯逾万的中文网址,并分成娱乐休闲、商业经济、社会科学、教育就业、社会文化、参考资料、政法军事、体育健身、科学技术、新闻媒体、文学艺术、电脑网络、医疗健康、生活服务、参考资料、国家地域等15大类,其下分多个小类;并提供了中文关键词的搜索功能。
“网易”(http://www.yeah.net):“网易Yeah搜索工具”由广州网易计算机系统有限公司开发研制。它提供了类目浏览和关键词检索两种方式,类目浏览中有商业、教育、电脑、运动、政治、科学、娱乐等12个大类,各大类下又细分为若干小类:关键词检索支持全文检索,反馈信息包括网址、提要、长度、最近修改时间和相关度等。该工具还设有热门站点、新到站点和登录站点等栏目,并提供了与江苏接入网、国讯网络、厦门新华信息网、瑞得在线、金华热线等网络站点的链接。
    “悠游”(http://www.goyoyo.com):“悠游Goyoyo中文搜索工具”由美国Unilinx International Ltd(优联克国际有限公司)开发,分别在美国、香港地区、北京、重庆和上海设立5个分站点,由各地的优联克分公司进行制作和维护。它支持中文GB码和Big5码,提供了自动构造式的概念类型查询和关键词检索两种查询方式。在概念类型查询方式中列出82个概念词,如电脑、软件、硬件、公司、游戏、互联网等,按照指引可以查看有关网页:而关键词检索支持全文检索,可选择站点查询或网页查询,并可要求精确匹配,检索结果按相关程度高低排列,反馈信息丰富,有站点名称、编码类型、相关程度、所在目录地址、简要介绍、最后修改时间等。此外,该站点还提供了最新资讯、热点新闻、网页登录、访客留言、客户通讯、线上黄页、热门站点、BBS、会员登记等栏目,并设有与希望工程、中国经贸信息网等多处网络站点的链接。
    “搜索客”(http://www.cseek.com):1997年11月3日,由ChinaByte开发的中文搜索工具“CSEEK”——“搜索客”在北京上网。它利用Spider(蜘蛛)自动搜索、抓取新增站点,并及时更新旧站点。目前,“搜索客”的搜索范围涵盖了大陆、香港地区、台湾省和新加坡的中文站点,大约有13万个站点和50万个网页,并支持GB码和Big5码的自动转换。“搜索客”提供了类目浏览和关键词检索两种查询途径,其类目分为计算机、教育、工商经济、社会科学、新闻、自然科学等14个大类,各大类下细分为若干小类;进行关键词检索,可选择反馈信息的排列方式,且反馈的信息十分丰富,列出了诸如网页名称、匹配度、编码类型、网页地址、简介以及栏目名称等信息。此外,该站点还设有今日要闻、人才驿站、软件仓库、网络学院、游戏天堂、专家专栏、新闻讨论组等7个栏目,其中软件仓库中有丰富的软件供上网用户下载和使用。
    “茉莉之窗”(http://www.jansers.org):“茉莉之窗”由香港中文大学设计,提供了中文GB码、Big5码和英文3个界面,共收录了57万多个中文站点(GB码和Big5码),并给每个网页10个关键词作索引。该站点可进行分类主题搜索和关键词搜索,在分类搜索中,可按划分好的12个大类逐层进行查询;而关键词搜索就更具特色,它先将检索要求切分成词,并赋予每个词以合适的词性,然后仅使用其中的名词、动词和形容词进行主题检索,而不是传统的精确匹配,最终将检索结果通过网页过滤器,自动转换成用户浏览器支持的中文码字,而且反馈信息十分丰富,其中包括网页名称、编码类型、相关度、相关网页、网址、简单介绍、网页长度、最后修改时间等,这样就保证了检索的查全率和查准率。
    蕃薯藤(http://search.yam.org.tw):“蕃薯藤”是台湾最知名的查询站点之一,该引擎于1996年6月正式运营,支持Big5码和英文界面,提供了分类浏览和关键词检索两种途径,网页的分类完善、合理,共12大类,各大类下细分若干小类。关键词检索除了可选择查询范围,支持空格、“+”、“.”和交/并集外,还可用通配符“*”代替不能确定的文字进行模糊检索,或连接其它20多种常用的工具,此外,还开设了观新、热门等诸多栏目。
    2、各种搜索引擎的不足之处
   (1)大多数中文搜索引擎的查询方式较为单一
    一般搜索引擎只提供分类浏览的查询方式和关键词全文检索查询方式,缺乏其它途径的查询方式,并且关键词全文检索模式也比较简单,这将导致信息查询的查准率不高的后果。
   (2)目前网上的中文信息较少
    相比网上外文信息而言,网上中文信息资源较少,且ISP中文站点的质量也良莠不齐,信息更新的速度慢。通常是几个月才有所更新。对搜索引擎而言,ISP站点的内容的质量也非常重要,它和搜索引擎之间是鱼水关系。
   (3)采用的技术比较落后
    国内的网站所采用的收集资料的技术比较落后,目前我国自行建立的搜索引擎,如搜狐对站点的描述不多,与国外著名搜索引擎相比还有很大差距。这是由于它们均采用目录式搜索引擎(Directory Search Engine),即通过人工发现信息并依靠编目员的知识进行分类。这种引擎的优点是准确度较高,缺点是信息量小且维护所耗费的资源大。
    分析各种中文搜索工具,由于中文编码的特殊性和搜索工具设计者的局限性,目前的中文搜索工具在实际应用中仍反映出一定的不足,有的收集范围小、信息量少;有的搜索能力弱,反馈信息少;有的不支持某一种中文编码类型,从而使获得的信息资料不齐全、不完整,有的返回的信息很多但是查准率较低。所有这些问题的实质是搜索引擎缺乏知识的理解能力和处理能力,对要检索的关键字词只是简单的进行机械的匹配来实现。我们可以借鉴一些新的技术方法来优化中文搜索引擎的功能。
    3、国内外关于搜索引擎的新技术
   (1)一种基于机器人技术的搜索引擎——机器人搜索引擎(Robot Search Engine)
    机器人搜索引擎,是由一种叫“蜘蛛”的计算机程序在网络中爬行,依据一定的网络协议在互联网中发现、加工、整理信息,并为用户提供检索服务。其优点是信息量大,耗费资源少,但精确度不高。从国外搜索引擎的发展趋势来看,将人工发现信息并依靠编目员的知识分类与机器人搜索引擎二者融合,优缺互补,以便提高智能化程度和准确度。
   (2)中文文本的过滤信息分流机制
    信息分流是在过滤系统为多个用户进行信息过滤服务时,将具有相同或相似信息需求的用户合理地组织在一起,使其公共信息部分得到最大限度的体现,依据这些需求,将文本分流,达到提高效率的目的。由于采用的过滤模型不同,分流的机制也不同。布尔模型,利用其具有明确逻辑表达式的特点,采用判定树等逻辑运算手段,使分流判断中的公共部分尽可能地实现共享,先判断高频属性,再判断其余属性,以此来提高分流的效率。但是由于布尔模型只能进行定性的运算而不能进行定量的排序,因此,局限于逻辑运算的分流机制将不能适应用户的需求。如对于过滤条件A and B and C and D and E,含有项A,B,C,D的文本肯定不能被选中,而用户很有可能对这个文档感兴趣;还有对于过滤条件A or B or C or D or E,仅含项A的文本和含有全部项A,B,C,D,E的文本具有同等重要性。同理,它不能处理项的权重和文本中词频等定量信息。另外一种新的机制CDT(concept-based decision tree)其基本思想是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求。这两种技术的使用将大大减少服务器的负荷。
   (3)分词技术与XML技术的有机结合
    汉语是一种无明显词间间隔的语言,因而存在一个如何分词的问题。现有的分词法很多,如最大匹配法,最佳匹配法,高频优先分词法,基于频度的分词法,基于神经网络的分词法等等,但是各有缺陷,所以我们可以采取的分词方法是基于词库的最大匹配法和基于频度与统计的无词库分词法组合起来。在关键词的提取后充分利用XML技术进行搜索。W3C提出XML的通用数据格式,对格式和表达杂乱无章的信息内容进行索引。
    XML的文件可以自我表述。采用XML,文件类型定义(Document Type Definitions-DTD)便会附在文件中,基本上,它会定义有哪些组件及组件之间的结构关系等的文件规则。当接收的应用程序不具输入文件的说明时,DTD可以协助辨识文件。不过,DTD并非必要组件。与DTD一起传送的文件称为“可验证的”XML。由XML撰写的文件均可自我表述,因为用来描述的标注,已经含在文件中。XML所使用的开放式、具弹性的格式,让它在任何要需交换并转换信息的地方,都可以被采用。
    Schemas是另一种XML组件名称,它指定文件中所允许的元素,及其可能的组合。因为Schemas语言都是可扩充的,开发人员可以使用额外信息,如数据类型、继承性以及呈现规则来加强它。Microsoft和其它公司已经提出,使用XML语言来表达XML文件架构的词汇,让XML的文件可以表述自身的结构。在XML中叙述Schema,为XML格式灌注了强大的功能。
    XML使用“<”和“>”来标注数据,我们可以定义无限量的标注。HTML标注只能用来指定文字要以粗体或斜体显示;XML却提供了一个标示结构化资料的架构,可以用标注来描述一切数据。随着网际网络上的许多机构逐渐采用XML标注,便可以采用分词得到的关键字进行搜寻并操作。XML中资料的呈现和处理是分开的,XML的功能强大与迷人之处,在于它保持使用者接口与结构化资料的独立。HTML叙述如何在浏览器中显示资料,XML则定义其内容。使用XML,您只要使用标注来描述数据,如程序名称、温度和气压,我们可以利用这一点而对产生的关键字进行查找。在XML中,您可以使用样式表(如[延伸性样式语言(Extensible Style Language-XSL)]和[衍生样式表(Cascading Style Sheets-CSS)])将所获得的信息在浏览器中显示。XML将资料的呈现及处理分隔开来,根据不同的关键字的逻辑构造而套用不同的样式表和应用程序,即可照希望显示并处理资料。将资料由呈现式中抽离,使得处理后的各种数据资料可以完全整合。
    XML的基础是经验证的标准技术,并针对网络做最佳化。Microsoft与其它顶尖公司以及W3C的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、作者和使用者,以及改进XML标准。随着XML技术的飞速发展,采用XML新技术的网络检索将不会再让人困惑了。
    借鉴国外已有的许多大型优秀搜索引擎,我们应大胆动用新的先进索引技术、检索技术、以及XML技术将已有的技术与国内外新进技术相结合起来发展符合中文特色的搜索引擎。

赵丹、朱巧明(编号:2002-2-4-74)