论文部分内容阅读
随着大数据的到来,以及互联网的迅速发展,自然语言处理中的信息处理中扮演着重要角色。我们日常生活中很多事情都离不开自然语言处理,如机器翻译、智能应答、语义搜索等。目前,自然语言处理已经从句法、词法层面走向轻量级语义层面。针对汉语陈述句的自然语言处理,传统的自然语言处理一般采用基于概率模型的统计方法和语义逻辑方法。但基于概率统计的方法无法实现自然语言的语义处理,而过于强调语义的逻辑方法又使得计算复杂性大大增加。对于传统基于逻辑的方法,自然语言处理一般采用Lambek演算。但是,由于Lambek演算缺少了收缩、弱化和交换律这三条结构规则,因此无法解决汉语陈述句灵活语序的处理问题。对于Lambek演算不能处理灵活与许的问题,现有的方法,如加入模态词、新连接词等,但又因其进一步增加了本已是NP-hard的Lambek演算的复杂度,因此这些方法不适合计算机的处理。因此,现时代迫切需要一种新的方法,使得计算机能够很好、快速地处理这些问题。基于此,本文提出了加标动词匹配的Lambek演算,通过对Lambek演算中的句法类型进行标记(预处理),从而使之能对灵活语序的汉语陈述句进行处理。加标动词匹配的Lambek演算的目的是通过移动规则来对句法类型序列进行调整,使得类型序列的顺序能够正常通过Lambek演算。加标动词匹配算法的时间复杂度低,将其用于Lambek演算中并不会改变其复杂性,因此使得计算机及其程序能够有效的对汉语陈述句中的灵活语序问题进行处理。此外,Lambek演算在自然语言处理有着许多优点,它不仅是上下文无关的、具有代数语义和关系语义的模型,而且还能通过Curry-Howard对应理论与λ-演算引入轻量级语义处理。λ-演算是用于数学定义、函数应用和递归的形式系统,λ-演算可以对自然语言处理中的语义模型进行描述。因此,本文又提出了λ-Lambek演算,通过λ-Lambek演算对灵活语序的汉语陈述句进行处理,同时对其进行了轻量级语义的研究,并建立了语义二叉树模型。通过加标动词匹配的Lambek演算,实现了对汉语陈句中灵活语序问题的处理,然后通过λ-Lambek演算对汉语陈述句及其灵活语序进行了轻量级语义的研究。此外,通过程序实验验证了这两个方法的有效性,这对汉语陈述句及其灵活语序等自然语言的处理有着重要作用。