论文部分内容阅读
随着信息技术的飞速发展,网络上出现了海量的口语化信息(博客,微博,聊天记录等),如何使用计算机自动处理这些信息,分析其语义和意图,是一个亟待解决的问题。传统的自然语言处理技术虽然在词法分析和语法分析上趋于成熟,但在语义及意图分析上还鲜有研究,而言语的对话行为(Dialog Act,DA),包含了言语的语用学信息,对于理解言语的语义和意图有重要意义。对话行为反映了一句话在交谈中的作用,它含有丰富的语用学信息,能够帮助我们理解言语的语义及意图[1,2]。本文首先介绍国外关于DA识别的研究现状,然后面对中文口语的特点,提出了三种DA识别方法:基于n-gram的DA识别方法,基于HMM和扩展HMM的DA识别方法,基于KNN+n-gram的DA识别方法。并在中科院的CASIA-CASSIL语料库上进行了DA识别实验。实验表明,本文提出的方法能很好的解决特定领域中文口语的DA识别问题。互联网环境下的中文有其自身特点,如语言结构较为简单、松散,经常出现语言错误等。以上提出的DA识别方法能否用于解决互联网环境下的中文口语DA识别呢?为了探索该问题,我们首先需要构造相应的语料库。本研究使用新浪微博的程序调用接口,下载微博及短对话,并对微博进行分类、过滤、标注和数据库存储,初步构造了一个互联网环境下的中文口语语料库,用于后续研究。最后在此语料库上,使用以上提出的DA识别方法进行了互联网环境下中文口语的DA识别实验。实验表明本研究提出的DA识别方法是领域无关的,它能够用于解决互联网环境下的中文口语DA识别问题。