斗鱼冰山大神照片:自然语言理解与语法研究(俞士汶)

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 14:59:51

自然语言理解与语法研究(俞士汶)

关键词:自然语言理解、自然语言处理、语法研究、语法信息词典



一. 自然语言理解的研究对象

    从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解自然语言(即人们日常使用的汉语、英语等)的结果。显然,有必要给“理解”下一个本质性的定义。然而,这是极其困难的。说话人可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反应。人与人用自然语言(包括口头的与书面的)进行交流并没有困难,这是因为交流是在一定的环境中进行的,交流双方的知识背景一定有共同的部分,且交流的目的大体上也有了预设。 现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。 如果计算机实现了(1)人机会话,或(2)机器翻译,或(3)自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。 由于这些实用的系统,除了理解输入给计算机的文章或话语之外,还需要具备生成语言的功能, 因此,在计算机科学中,除了“自然语言理解”,也常常使用“自然语言处理”这个术语[1,2]。自然语言理解一直是人工智能学科内引人注目而又困难重重的一个核心研究课题。

    当然要让机器真正理解自然语言,首先必须弄清楚人是怎样理解自然语言的,是怎样学会外国语的,特别是,儿童是如何学会母语的。这些问题涉及到人类智能的本质的研究。因为人类的语言活动是人类极重要的智力活动之一。对这类重大问题的探索需要多学科协作攻关。除了计算机科学和语言学之外,吸取认知科学、心理学、脑科学、哲学等学科的成果也是必不可少的[3,4]。



二. 当代自然语言处理的基本模型

    机器翻译系统是典型的自然语言处理系统。当代机器翻译系统的模型可用图1表示,从图1可以了解到,机器翻译系统的基本原理乃是要素合成原理。首先将原文的句子分解成基本构成要素(词,惯用语等),这样才可以查词典,才好运用语法规则找出句子的结构,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示,于是可在结构的层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行词序调整、虚词增删及形态变化,最终得到译文的表层句子。

    这样的机器翻译系统除了一般的计算机系统都有的硬件和软件(分析与生成程序)外,还有一个特别的组成部分,即语言知识库,包括静态的词典、语法规则库等,也包括动态的上下文相关信息。而且,在机器翻译系统中,语言技术(包括语言知识的归纳、表示与运用)是居于核心地位的技术。同硬件、软件相比较,目前语言技术发展尚不够成熟,成为机器翻译开发过程中必须攻克的难关。



   

      原文输入                                                   译文输出

                                  静态知识库

                                      

         句法分析                  词    典                  句子生成

                                   语法规则

                                   常    识

            语义分析                                      译词选择

                                  动态知识库



               语境分析           上下文信息          结构生成

                          







                                内部表示/转换





图1  机器翻译系统基本模型



    不难理解,词典与语法规则库中需要注入大量的语言知识,上下文相关信息的提取当然也要依靠语言知识的运用。更重要的,是要在适当的语法理论指导下,找出一种合理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识,而且需要保证自然语言句子的表层线性序列与内部结构的表示之间以及不同语言的内部表示之间具有可计算性,也就是彼此之间能通过一系列规则或过程进行转换。很显然,自然语言理解研究工作的开展使语法研究有了新的目标、新的动力。



三. 语法分析在自然语言处理中的地位

    除了少数实验模型,大多数自然语言处理系统都包含句法分析这个步骤,狭义的语法分析就是指句法分析,广义的语法分析则包括句法分析、语义分析和语境分析。

    在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易理解的。在汉语中,很容易举出例子:

          猴子吃香蕉

          学生吃食堂

          老乡吃大碗

对于这些例子,仅仅在句法的层次上分析出“吃”是动词,“香蕉、食堂、大碗”是名词,且动词与名词之间是述宾关系,并不能妥善地解决机器理解与翻译的问题,必须进行语义分析,系统要在词典与常识库中为分析程序提供语义信息,如给“吃”附以“动物的一种行为”,在句子中需有“施事”与“受事”,只有食品类的名词才可以充当其“受事”,还要给“苹果、食堂、大碗”分别附以“食品、处所、器具”的语义标记。

    同样,也有充分的理由认为语境分析是不可缺少的,例如要将“小张打针去了”这句汉语译成英语或日语,至少要从上下文中弄清楚小张是病人还是护士。 系统要有一个动态的知识库存放分析语境所得到的信息。分析程序参照这个动态知识库,说明只有突破一个句子的界限,才可能正确地理解每一个句子。

    人们大致上采用两种方式使用自然语言进行交流[5]。一种是“意合法”,发话者的几个关键的词,就可以让听话者捕捉到有关的信息,这当然绝对依赖于当时的环境。另一种是“结构法”,即人们正常说的、写的句子虽然表面上看来只是音节或词的线性序列,但实际上是有一定的结构的。在这两种方式中“结构法”是基本的。目前计算机能处理的也就是这样的有合法结构的句子,其中心任务就是通过句法分析、语义分析和语境分析得到句子结构的形式化的机内表示。句法分析、语义分析与语境分析,这三者之间的关系应当是以句法分析为主,辅以必要的语义分析和语境分析,以消除歧义结构。句法分析固然解决不了关于理解的全部问题,但是反映客观世界的语义系统即使能建立起来,也会十分庞杂,语境分析更是没有边界,很难形式化,因而也不宜对语义分析与语境分析期望过高,正确的策略应是将三者有机地结合起来。 这也许是最有效且最经济的原则。汉语的形态虽然不发达,但反映汉语结构规律的形式系统还是存在的 ,只是研究得还不充分,对自然语言处理还有很多潜力可以发挥。因而,在以汉语为对象的自然语言处理研究中句法分析仍然处于举足轻重的地位,当前应该是研究的重点,至少应是重点之一。



四. 面向自然语言处理的语法研究

    应该说,凡是汉语语法研究的成果对机器理解汉语都是有用的,似乎没必要区分面向人的研究还是面向机器的研究。只不过当前的计算机的智力比人类差得远,要教会这样一个“傻瓜”理解自然语言,既需要提出一个合理的可以实现的培养目标,又需要有一套特别设计的教材与教学法,在这个意义上讲,面向机器的语法研究可以看作是对计算机的语言教学研究[6]。



1. 适合于分析与生成的语法理论

    自然语言处理的中心任务就是要得到既作为分析的结果又作为生成的起源的机内中间表示形式。计算语言学家为此进行了艰苦的探索,建立了各种模型[1]。下面举例说明。 设计算机系统中存储了一部稍加扩充的上下文无关语法的公式:

               S→NP+VP

               NP→n

               NP→r

               NP→MP+n

               MP→m+q

               VP→v(双宾=“双”)+NP+NP

这里S代表句子,NP,VP,MP分别代表名词短语,动词短语,数量短语,n,r,m,q,v分别代表名词,代词,数词,量词,动词。动词v后面多了一个括号,括号内的“双宾”是一个语法属性,“双”是属性的值。若括号中的等式成立,表示该动词是双宾语动词。同时,系统中还存放一部电子词典,这部词典除了登记汉语的词条外,还要给每个词赋予一个分类代码,对于动词还要附加属性,以指明该动词是否为双宾语动词。利用这部语法和这部词典,计算机可以从内部生成如下合乎语法的汉语句子

               老师教我们一支歌

也可以分析从外部输入的这样的词序列,判断它是合乎语法的。 所谓“合乎语法”指的是可以用一颗“树”作为它的结构的内部表示(图2):



                            S



                NP                    VP

                  

                 n         v          NP           NP

                      (双宾=“双”)

                                       r       MP       n

                                                     

                                             m   q

                                 

               老师        教        我们    一  支     歌



                       图2 句子结构的“树”表示



得到了这样一棵树,计算机对汉语的句型就有了相当好的把握,为理解汉语奠定了一个重要的基础。机器翻译的核心技术之一就是在两种不同语言的内部结构之间实现转换。当把这个汉语句型结构变换到对应的英语结构后,与分析过程相反,就可以从对应英语句型结构生成英语的表层句子,至于词语的对译可借助机器词典解决。

    尽管基于上下文无关语法的各种计算模型在自然语言处理中得到了广泛的运用。这类语法的局限性也是明显的。不考虑语气,以下几句话的意思基本上是一样的。

          他已经解决了这个问题。

          这个问题他已经解决了。

          他已经把这个问题解决了。

          这个问题已经被他解决了。

可以预测到,完全使用上下文无关的语法公式来描述自然语言,其数量是难以控制的,而且使用句法树也无法表达以下句子的逻辑语义。

          资料已经看完了。

          他写毛笔。

    一种语义分析方法的基本思想是将句子看成是由居中心的谓词性概念及处于外围的“角色”组成的框架。与每一个谓词性概念相配合的角色是一定的,这样的角色由具有某种语义的体词性成分(如名词)来充当。名词的语义则由语义分类和语义属性进行描述。为了实现语义分析,系统中需预置各个动词(也可以是某一类动词)的抽象的框架结构,如“看”、“写”的抽象的框架结构分别为

    [ 中心1: “看”

       角色 [ 施事: (动物)

              受事: (具体物) ] ]

    [ 中心2: “写”

       角色 [ 施事: (人类)

              受事: (作品)

              工具: (器具) ] ]

计算机程序参照这些框架结构和语义词典,分析上面最后两个句子,可以得到具体的结构:

    [ 中心1: “看”

       角色 [ 施事: “  ”

              受事: “资料” ] ]

       时态 [ 完成态 ] ]

    [ 中心2: “写”

       角色 [ 施事: “他”

              受事: “  ”

              工具: “毛笔” ] ]

这也是自然语言句子的一种机内表示形式。 不同语言的语义框架之间同样可以进行转换。不过,要实际建造一个完整的语义系统,实在是一项浩大的工程。另外语义分析与句法分析也不宜脱节。因此,建立和完善适合自然语言分析与生成的语法理论依然是一个探索中的课题。

    对于汉语来说,这个任务则更为艰巨。在比较窄的应用领域或实用型系统 (如信息库的检索界面、机器翻译系统)中,从事汉语信息处理的研究者也曾构造了各种类型的计算语法模型。不过,可以看出这些模型几乎都是借用国外已有的语法理论(如上下文无关语法,扩充转移网络,语义语法,格语法,语义网络,广义短语结构语法,词汇功能语法,依存语法等等) 解释一部分汉语的语法现象, 应该说真正立足于汉语语言事实的形式化的语法理论框架至今尚未建立起来,众多的学者都在期望着这个课题的突破性进展。



2. 语法电子词典

    不论语法理论采用什么样的模型,反映汉语词语的语法功能实际的电子词典总是必不可少的。这种电子词典不是供人使用的,而是供计算机使用的,因此它必须具有规格化、形式化、代码化的特征。

    这种电子词典包含的词语至少要数以万计,应当包含词语的句法信息、语义信息以及语用信息。目前采用适当方式,尽快地将语言学家的知识吸收到计算机系统中来是可取的开发策略。北大开发现代汉语语法电子词典已经走过六七个年头,已经积累了丰硕的成果[7]。在朱德熙先生语法理论的指导下,北大初步建立了信息处理用现代汉语词语分类体系。语法电子词典采用关系数据库技术,分类对每个词的句法属性进行了详细的描述。以动词为例,语法词典包含每个动词的句法属性约100项左右。这并没有穷尽。 当句法分析程序需要用到动词自主与非自主的区别及动词的过程性特征时,电子词典还可以补充。 这种动态性使语法电子词典的水平与语法研究的进展得以保持同步。

    目前北大的工作局限在句法信息的范围之内。北京语言学院与河南财经学院正在合作开发事物类、性状类、运动类词语的语义信息词典[8,9]。 语法词典与语义词典是在同一个总体方案内进行的,是互相衔接的,这两部词典将为中文信息处理提供一个平台。

    词汇主义已成为当今语言学研究的倾向之一,在整个语法理论中词库的地位已变得越来越重要了[10]。为了充分描述不同语言结构之间的差异与多样性,研究者不再走增加句法规则的路子,而转向将规则归纳为少量的一般化原则,同时将词库作为语法的一个重要的有机组成部分,词库中为每个词项所附加的信息需同语法规则相结合,这样才可以实现由词项驱动规则,词典在语句分析与语句生成中将发挥更大的作用。反映在应用领域,机器翻译也采用了词专家系统的技术[10]。电子词典已成为自然语言处理实用系统开发的焦点,尚有大量的工作等待语言学家去做。



3. 汉语短语结构体系及形式化描述

    朱德熙先生关于汉语是以词组(即短语)为本的论点已得到广泛的赞同。从 4.1所举的几个例子可以看出,尽管由于语序的变化及虚词的取舍,汉语句子千变万化,但短语结构却是相对稳定的。在建立汉语句子分析与生成的语法模型的目标确立之后,又有了语法电子词典的坚实基础,汉语短语结构的研究可以说是到达彼岸的桥和船。

    由于这里的研究是面向计算机的,形式化的描述当然是必要的,但绝不仅仅是形式化问题。很多问题也是语言学需要深入研究的。例如,对学汉语的人说“动词后接名词可以组成述宾短语或定中短语,偶而也可构成主谓短语”也许就够了。但计算机无法运用如此高度概括的结论,需要更明确地指出哪个子类或具有什么属性的动词和哪个子类或具有什么属性的名词能构成什么样的短语,这个短语的特性如何,它继承了构成成分的哪些属性,丢失了哪些属性,又派生出了哪些属性[12]。

    不仅需要研究短语的静态结构与属性,更需要研究短语的动态特性,即短语在句子中所起的作用。一般说,句法分析包括自动切词、确定词性、组合短语、决定句型等步骤。这些步骤可以相互独立地进行。但为了进一步提高分析的精度,有必要有机地融合这些步骤。因为这些过程都会碰到一个共同的问题,即短语结构歧义或短语的边界问题。象“这样的人才能出众”这样一串汉字可以有如下不同的组合

          这样  的  人  才能  出众

          这样  的  人才  能  出众

          这样  的  人  才  能  出众

显然要把面向计算机程序的短语动态特性的规律表述清楚,还是需要狠下功夫的, 计算机系统如饥似渴地需要吸取语言学家的知识。面向自然语言处理的现代汉语短语结构的体系、类型、功用与特性的研究是一个重大课题。



4. 未定义词的处理与合成词的构造

    尽管电子词典是自然语言处理的基础,但是不论词典的规模多大,真实文本中总会出现一些词典中未登录的词或者词典中虽有其词形(汉字相同)但词性却不合适,这些都属于未定义词。例如,专有名称是未定义词。有些词,人看来是很平常的,如“海上,前院,阿叔,可读性”等,也可能是计算机系统的未定义词。未定义词是语句分析的一大障碍。有些未定义词,如人名、地名,不必研究其内部构造,只能从前后关联的某些特征词,如:主任,先生,小姐,县,山,河等进行猜测。另一些未定义词,如新出现的或临时使用的合成词,简称略语等,识别起来则更困难。 计算机程序当碰到未定义词时,总是把它们分割成单个的汉字,未定义词的处理的首要目的就在于把单字重新组合成词并确定其词性。显然,要解决好计算机系统内未定义词处理的问题,需要语言学家们加强合成词构成规律及词间关系的研究,因为这是解决这个问题的途径。

    以上列举的一些课题都是面向自然语言理解的。这些研究的最终目标是要解决宏观的、大范围的、基本的问题。语法研究的对象、方法与手段极需要创新。当代计算机科学技术已为语言研究提供了强有力的工具,建设大规模的语料库已有了现实的可能性。 语料库建设的本身也包含了大量的语法研究课题,并且同自然语言分析与生成的研究是相辅相成的。 在面向自然语言处理的语法研究这个领域中,有着大片的待开发的土地,付出一份辛劳就一定会有一份收获。





参考文献

[1]  Philip J.Hayes and Jaime G.Carbonell,A Tutorial on Techniques and Application for Natural Language Processing,Carnegie-Mellon University,October,1983.

[2]  长尾真等编,《情报科学辞典》,岩波书店,1990年 第1版,PP292~293

[3]  俞士汶,自然语言理解与认知科学,《计算机信息报》,89年 第51期

[4]  俞士汶,语言信息处理的意义与方法,《中国计算机报》,91年 第18期

[5]  马希文,自然语言理解,《计算机工程与应用》,87年 第4期,PP18~21

[6]  林杏光,论语言教学,《语言文字应用》,1993年 第2期,PP66~68

[7]  俞士汶、朱学锋、郭锐,现代汉语语法电子词典的概要与设计,ICCIP'92,PP186~191

[8]  张普,信息处理用现代汉语语义分析的理论与方法,《中文信息学报》,91年 第3期,PP7~18

[9]  鲁川、梁镇韩、郭爱民,汉语信息处理的知识表示:语义网络,ICCIP'92,PP50~57

[10] 黄昌宁,关于处理大规模真实文本的谈话,《语言文字应用》,1993年 第2期,PP1~10

[11] 刘倬、傅爱平、李维,基于词专家的机器翻译系统,《机器翻译研究进展》,1992年,电子工业出版社,PP231~242

[12] 俞士汶,关于计算语言学的若干研究,《语言文字应用》,1993年 第3期,PP55~64





本文完稿于1994年初

载于马庆株编《语法研究入门》240-251,北京:商务印书馆,1999  
以风浪逸其情,以乾坤纵其志
  以霓虹为钩,以长风为线