孕妇梦见朋友怀孕:搜索模式的“发现”之旅

来源:百度文库 编辑:偶看新闻 时间:2024/04/30 00:33:51
搜索模式的“发现”之旅 作者: 李子臣 出处: 中国计算机报 责任编辑: 张磊 [ 2005-07-08 13:03 ]【导读】采用“模式识别”搜索方法,可找出在内容上最接近的数据提供给用户,避免传统了“关键词检索”造成的漏检情况。
      本月打电话免费  5周年庆典,主机6.2折
       趋势送当当500元代金卷    买软件 送HP服务器    用户常常很难用具体而明确的关键词来描述自己想找的东西,而搜索出来的结果大部分与这个关键词并没有太大关系。采用“模式识别”搜索方法,可找出在内容上最接近的数据提供给用户,避免传统了“关键词检索”造成的漏检情况。

  目前,世界范围的WWW正以每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加,但在从Web或数据仓库中找到您所需要的内容却并非进展迅速。2004年5月Nielsen Norman Group发布了其2004年Web可用性调查结果,其中强调了搜索已成为Web应用成功道路上的巨大障碍之一。

  搜索方式亟待突破

  据调查,访问搜索引擎已成为88%的Web会话中的第一步,同时用户平均在每次会话中会访问3.2个站点(访问搜索引擎除外)。就搜索成功性而言,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%。尽管仅对经验丰富的用户来说,这一数字可以达到50%,但这仍然意味着失败。

  最糟糕的搜索经历常发生在使用企业网站点搜索,而不是使用巨型搜索引擎的时候。大约有60%的被调查用户仅在搜索开始时键入一个单词,另外的20%用户键入了两个单词。只有1%的被调查用户使用了高级搜索功能,而使用引号或其他查询语法对搜索进一步优化的用户仅有3%。

  此外,调查还表明,搜索结果页面中的第一条链接得到了51%的点击率,第二条获得了16%。从搜索引擎公司的数据库也得出了同样的结果,由此产生了关于搜索的一条定律:不要奢望用户使用比搜索引擎所提供基本工具技巧更多的手段来获取信息。搜索引擎不得不采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。

  Forrester Research的统计表明,非结构化“内容”量正在以每年200%的速度增长。分析师估计,一般员工大约花费35%的时间寻找工作所需的非结构化信息。低下的内容处理效率和不断膨胀的内容量,导致很多时候造成大量的资源浪费:一是信息堆积的本身是一种资源的浪费,信息是一种财富,无论是历史积累起来的大量资料,还是每日最新的新闻稿件,都是每一个机构最有价值的资源,简单的堆积是远远不能体现这些资源的真正价值;二是不能有效地使用信息,大量已有系统存储设备、各种应用系统的资源的浪费;三是对人员资源的浪费,无论是现在对信息的预处理,还是各种应用系统的维护,人员投入都是必不可少的,这也是最昂贵的资源之一。

  目前常见的一些对信息应用的技术,还主要围绕在一些传统的检索方式上,如关键词检索、逻辑语言、布尔语言检索、人工标引、人工做连接、人工分类、人工填写爱好表格等,对信息的使用依赖大量的人工预处理,方法也非常单一。

  从以上简单的事实对比,可以发现一个隐含的迫切需求:用户需要有一个工具,能同结构化信息一样,有效地管理非结构化信息。Autonomy正是为给这个软肋补钙而生,Autonomy既是一种搜索新理论的代名词,又是一个公司的名称,同时还是一个产品的名字。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声煊赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。从Autonomy目前的蔓延态势看,它很可能成为几大传统搜索门派的终结者。

  图 Blinkx门户网站

  帮助用户发现信息

  目前,人类研究的信息搜索技术有四个方向:关键字搜索、模式识别、语义分析、神经网络。除了关键词搜索比较成熟外,其它三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,这两个技术方向的研究难度相对较大,估计一时半会不会有突破性研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

  传统搜索基本上采用“关键词”搜索方式,也就是“非0即1”的方式,它基于严格定义和分类的布尔表达式,即“与、或、非”表达式。这样搜索的最大弊病就是,如果关键词不确定,或者有错误疏漏,用户往往得不到自己想要的搜索结果。

  在实际应用中,用户常常很难用具体而明确的关键词来描述自己想找的东西,甚至在有些时候,搜索出来的结果大部分与这个关键词并没有太大关系,只是结果文章中出现过这个词而已。例如,一个用户希望了解污染对企鹅造成的影响,使用关键词搜索法,键入“企鹅”,搜索结果可能带来一些有用的信息,但同时也有大量不相关的文章,如“企鹅出版公司”、“企鹅牌服装”、“企鹅冰箱”等。

  采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,即它会对用户键入的检索内容进行语意上的分析,然后对海量信息进行概念匹配,找出在内容上最接近的数据提供给用户,所以可以避免传统“关键词检索”造成的漏检情况的发生。比如,一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄漏”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

  如果说传统的“关键字”搜索方法为“search”(搜索)的话,Autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。如果一个用户需要知道“本月最热门的IT新闻事件有哪些”,使用Autonomy的“聚类”功能就可以得到近乎完美的答案。

  在企业内部,Autonomy是追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。“搜索”不是Autonomy的最终目的,抽取最需要的信息进行“信息集成”,搭建知识管理平台才是Autonomy的应用方向。

  业内人士认为,政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。Autonomy曾经在美国本土安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用。因为对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。

  随着互联网的多元化,大量网上违法信息都不以关键词形式出现。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。

  智能搜索的“样板工程”

  2004年7月,美国Blinkx公司推出了一种新型搜索工具Blinkx,而Blinkx的核心技术则来自Autonomy。该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,系统经过“学习”积累了一定“经验”后,可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。Blinkx不仅可以搜索文本内容,还可以搜索电影、电视等多媒体内容;不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容;Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF,以及各种数据库中的数据格式。有媒体把这种搜索方式称为“占卜式”搜索,也有人将其称为“智能搜索”。

  图2企业桌面搜索工具IDOL结构图

  Blinkx公司同时发布了提供这种新型搜索功能的两个服务工具,一个是门户网站www.blinkx.com(如图1),一个是在该网站上可以下载的客户端软件,该软件大小约7MB。尽管这两个工具目前仅支持英德两种语言,而且都只是测试版,但它提供的震撼性功能已经开始让传统搜索巨头们为之瞩目。

  与传统搜索网站不同的是,在Blinkx的搜索框中键入用户指令,出现的结果可能被系统自动分为10类,可能其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,完成“进阶式”查询,通过这种方式逐步接近目标,最后达到用户期望查询的结果。

  而且,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

  据悉,Blinkx将进入中国市场,其中文测试版已经“竣工”。据英国Autonomy公司在国内的代理商卓越动力软件(北京)有限公司称,目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统。

  Autonomy公司是Blinkx公司的股东之一,加上Blinkx的核心技术来自Autonomy这种密切的关系,Blinkx被认为是Autonomy的“样板工程”。

  桌面搜索成为竞争焦点

  企业网络的搜索比较复杂,虽然它的资料量相对非常少。通常,企业信息是以各种不同的格式,如电子表格、PDF、HTM网页或多媒体文件,存储在各个不同的地方。同时,企业客户要有可靠的存储系统,还有协作工具、安全工具等。所以企业搜索需要具备更聪明的功能,能从各种不同的信息来源做信息的收集和关联。

  企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点。微软、IBM、Autonomy、Yahoo、AOL等和Google正在开展直接的竞争。

  2004年10月14日,Google公司推出新桌面搜索工具预览版—Google Desktop,在提供计算机硬盘信息搜索的竞赛中,向主要竞争对手发起了第一波攻击。Google Desktop目标直指微软公司以及AskJeeves和AOL等其它公司已发布或预期发布的桌面产品。Google Desktop使用户可以搜索Microsoft Outlook和Outlook Express中的电子邮件、AOL Instant Messenger中的聊天内容,以及微软IE中查看的网页。它还帮助用户搜索纯文本、Microsoft Word、Excel和PowerPoint文件及其它内容。Google的目标是让它表现得像是计算机中的照相存储器。

  Google推出了Google Scholar和Google Suggest搜索工具测试版,Google Scholar主要致力于学术和科技资料的搜索。Google Suggest功能更为奇特,当用户键入几个关键词后,它就能猜出您搜索的内容。

  据Google公司内部消息透露,公司正在加紧研制桌面搜索工具的企业版,这将给企业IT管理者更大的搜索信息控制权。企业版搜索工具的显著特点是:具有口令保护功能,支持单系统上多程序搜索。目前,业内尚不知其实际效用。Google桌面搜索功能将整合在Google搜索工具中。

  微软这位软件巨人,也紧随Google和其它公司创新的步伐,并于2004年12月10日公布了WinFS,又在几天后宣布推出桌面搜索工具测试版本,并称在今年正式的搜索版本将与用户见面。

  IBM公司的研究人员描述了公司“未来搜索”的概念,并演示了即将生产和销售的几种不同产品。日前,IBM推出了OmniFind,这也是公司解决搜索问题新战略的第一步。据IBM称,这种称之为“非结构性信息管理架构”或是UIMA的模式,将引领第三代信息搜索的潮流。新的搜索工具将使进一步搜索成为可能,这种“发现系统”将能辨别存储信息中潜在的意义,不论这种信息是什么结构(数据库、电子邮件、录像、图片或是视频信息),不论它是什么语言,都能一网打尽,这种搜索包括业内多年以来都在苦苦探索的“自然语言处理”、外语计算机翻译以及其它棘手的技术。

  IBM公司负责这项研究工作的人士指出,使用Google搜索方式,用户可找到世界各地不同语言的网页资料,但其速度较慢,而且结果令人迷惑。而IBM采用的是称之为Piquant的语义搜索形式,能对没有出现的知识进行智能搜索。比如,当搜索出一篇关于加拿大总理的文章时,它会自动提示一个问题“谁是加拿大总理”?甚至还会出现一些文章中未出现的东西。

  最近,Autonomy透露了其新搜索工具的详细情况,Autonomy公司推出的企业桌面搜索工具IDOL(如图2),具有先进的身份认证和SSL加密技术,它允许用户搜索在电脑桌面、企业网络、网站以及地区数据源上存放的文档、电邮、网站以及多媒体信息。

  Google的搜索与广告合作伙伴—AOL于2004年10月14日证实它正在测试一种新搜索引擎。这种搜索引擎与Google产品类似,都可以搜索Word和Excel等Microsoft Office文件、照片、音乐,以及来自AOL Instant Messenger的聊天日志和以前看过的IE网页。

  不久前,雅虎公司宣布使用X1系统作为其桌面搜索工具的基础。AskJeeves、EarthLink以及小型搜索公司dTSearch、Copernic、Accoona也都加入了搜索大战。Copernic也推出了Copernic桌面搜索1.2版本(Copernic Desktop Search Version 1.2),而ISYS搜索软件公司也宣布将于明年早些时候升级其先前的搜索工具。

  链接

  Autonomy的技术特点

  Autonomy软件设计的原则是无需用户改变已有的使用习惯,也不用改变已有的系统架构、应用程序和存储结构,甚至不需要改变已有的用户界面。Autonomy在保留了传统搜索方法的基础上,还发展了新的方法,它支持所有的传统式的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多更简洁的定义方法,还可以采用自然语言的设置方法或通过反馈的文章代替人工设置,而不需要采用有诸多限制的标准词或关键词。Autonomy通过自身软件架构的灵活性来适应已有系统架构,并可以嵌入到已有的应用系统中去,在熟悉的界面之下提供新的功能。Autonomy通过对文章的概念匹配和关联,摆脱了很多关键词检索的弊病和局限性,所达到的信息内容价值的释放是关键词搜索引擎望尘莫及的。

  Autonomy中含有一个动态推理引擎(Dynamic Reasoning Engine,DRE),它是一个扩展性很强的、多线程的核心引擎。信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都由动态推理引擎来完成。动态推理引擎是一个跨平台的引擎,可以在多种硬件和操作系统环境下优化运行,支持从PC使用的Windows NT操作系统到多处理器小型机运行的Unix等系统环境。它可以与各种不同信息源相连,如互联网、数据库、内部网和本机数据库、文件系统等。当用户发出搜索指令后,它可以通过概念分析、模式识别、相关度计算等方法,从不同的数据源中找到与用户要求最匹配的信息。

  Autonomy的技术特点和优势主要有以下几点:

  自动内容综合和精炼 Autonomy让系统了解自己现有信息资产的状况,不论信息源、格式或媒介如何,都可以进行统一的操作。Autonomy能操作的信息包括非结构化的数据,如HTML页面、字处理文档、电子表格、电子邮件及半结构化数据(XML),以及结构化数据,如RDBMS表格和Lotus Notes。而且,Autonomy还可以综合并且理解丰富的多媒体内容,例如音频、视频和图像的概念。综合是从不同的信息数据库里收集、抽取和导入内容、元数据及安全数据以供Autonomy的企业桌面搜索工具(IDOL)分析的过程。

  个性化操作 基于个人的档案(profile),Autonomy可以提供广泛的强大的个性化操作,为用户提供条件,让他们登记自己的兴趣,了解与他们个人兴趣喜好相关的信息。Autonomy的自动个性化解决方案,可以实现对目标产品或内容的高度个性化。企业应用的集成提高了生产力,个性化解决方案可以让用户有能力更为突出与众不同的核心竞争力,并且更快地做出正确的决策。

  信息自动分类 Autonomy独有的自动信息聚类,避免了相关人员的手工分类的麻烦,将相关网站信息进行全自动分类,实时、客观地反映出每一个科学门类的信息变化。这与其它的模板式的自动分类机制有着本质的区别。Autonomy的架构可以识别信息间的主要关系,从而实现内容间的交叉索引对照。最为关键的是,Autonomy的这一切工作是在绝对无需人工干预的情况下进行的,这对于企业的应用来讲是至关重要,全自动化的工作保证了时间、效率、结果的稳定与科学。

  主动匹配 企业的信息需求可能涉及的范围很广,从网站上最酷的新闻到刚刚播放的电视画面,“主动匹配”可以自动帮用户做这项工作,这样用户可以更快地做出正确的决策,消除重复劳动,并且可以在用户日常工作中充分利用整个企业提供的信息系统为各个相关部门和人员提供有价值的信息。主动匹配可以将典型的文档或以数字为中心的用户界面转变成以任务为导向的智能界面