滕州市人事考试网:搜索引擎中自然语言理解技术及其应用探讨(中)|佳克论坛

来源:百度文库 编辑:偶看新闻 时间:2024/04/30 14:36:16





爱克发
太平洋保险
上海联合利华
南方航空
华润大东
中兴电力

本站网络实名:
==佳克
==佳克软件
==固定资产
==固定资产管理软件
English
本站网络实名:佳克软件



搜索引擎中自然语言理解技术及其应用探讨(中)
2004-11-26 12:21
关于HNC理论
HNC理论是"Hierarchical Network of Concepts(概念层次网络)"的简称,是关于自然语言理解处理的一个理论体系。它以概念化、层次化、网络化的语义表达为基础,所以称它为概念层次网络理论。HNC理论把人脑认知结构分为局部和全局两类联想脉络,认为对联想脉络的表达是语言深层(即语言的语义层面)的根本问题。
HNC理论的中心目标是建立自然语言的表述和处理模式,使计算机能够模拟人脑的语言感知功能。该理论使自然语言理解获得了突破性的进展,它所蕴涵的精深丰富的思想对人工智能、语言学、计算机科学和认知科学等都具有重要的理论和应用价值,对中文信息处理和汉语研究尤其具有实际意义。
HNC理论完全摆脱了我国现有的这套语法学的束缚,而从语言的深层入手,以语义表达为基础,为汉语理解开辟了一条新路。HNC理论提出了可供工程实现的完整的自然语言理解的理论框架,它是一个面向整个自然语言理解的强大而完备的语义描述体系,包括语句处理、句群处理、篇章处理、短时记忆向长时记忆扩展处理、文本自动学习处理。HNC理论的出发点就是运用两类联想脉络来"帮助"计算机理解自然语言。自然语言的词汇是用来表达概念的,因此,HNC建立的词汇层面的局部联想脉络体现为一个概念表达体系。概念分为抽象概念与具体概念。HNC理论的概念表达体系侧重于抽象概念的表达。对具体概念采取挂靠近似表达方法。HNC理论认为应该从多元性表现和内涵两个方面来描述概念。
它创立了五元组用来表达抽象概念的多元性表现,对抽象概念的内涵采用网络层次符号来表达。其网络层次符号包含三大语义网络:基元概念语义网络、基本概念语义网络和逻辑概念语义网络。HNC的五元组符号和三大语义网络的层次符号组合起来就可完成对抽象概念的完整表达,从而为计算机理解自然语言的语义提供了有力的手段。
自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术几个方面。其中机器翻译(machine translation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页,并以母语浏览搜索结果。语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对词语在语义层次上的理解。人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言接口的革命,同时在家用电器的人性化设计方面有着广泛的应用前景,其技术内涵主要包括语音识别、语音合成两个核心部分。
在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。同时,在分词的过程中,知识库当中的同义词会被逐个匹配并同时提交给语义理解模块使用,这样处理过的句子,不仅提供了原始的句型,还同时搭载了语句的概念部分。
第二部分 在搜索技术中的应用
众所周知,随着互联网的迅速发展和广泛普及而导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。这种以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的的搜索技术的出现为网民快速找到所需信息带来了福音。
但是,2001年,Roper Starch的调查指出,36%的互联网用户一个星期花了超过2个小时时间在网上搜索;71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46%都是因为链接错误;绝大部分(86%)的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;网上查找答案的,半数以上都不成功;他们每周将花费14.5美元以上,以获取正确的信息。
从这些调查数据中不难看出,尽管搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丢失、返回信息太多、信息无关,这使得网民对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。
由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机会话技术能够赋予搜索技术更具人性化、方便易用的特点。因此,近年来在搜索界得到了广泛的应用。无论是国内外的搜索引擎,都可以寻觅到语义理解、机器翻译的踪迹。
目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。它允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网络交流更加人性化;二是使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性。比如国外的搜索引擎Google,,AskJeeves;国内的搜索引擎网易、尤里卡、问一问、21世纪互联、孙悟空、悠游等。在这里我们将重点介绍应用语义理解技术的中文智能搜索引擎。
首先以尤里卡搜索引擎为例简要说明一下这种智能搜索的过程。
实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。知识库提供的是语义理解中最终将要提供给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所以知识库也需要有良好的适应能力。在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
加入了知识库处理技术的智能分词能够避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出问题给出准确度最高、相关度最强的检索结果。比如:"我想在北京找工作?"。首先进行语义理解,在知识库中"找工作"属于求知招聘的范畴,所以分析出用户想查询"在北京求职"。然后利用"在北京求职"这个概念查询知识库,得出答案。
下面我们再来看看各家宣称应用了自然语言理解的搜索技术有哪些特点。
问一问(www.weniwen.com)自然语言检索
问一问是由闻易网科技有限公司(Weniwen Technologies, Inc.)开发的智能搜索引擎。它允许用户以自然的、整句的方式、以汉语或英语发出查询请求。易于快速地、以比较经济的方式扩展到不同的语言。 并可以同时从两种语言中识别出词汇。使用自然语言处理(NLP)技术,与传统的、基于关键词匹配的搜索技术相比,NLP技术可使问一问"理解"请求中的上下文和含义。通过使用NLP技术,问一问可以更准确地检索出适当的信息。尤其适用于旅游/休闲、金融以及消费品工业的、正在寻求可增强消费者通过Internet来访问其信息或进行自动交易的途径的大企业或门户。
© CopyRight 1996-2004 上海佳克计算机软件有限公司版权所有 All rights reserved