中文口语的DA识别方法研究及在互联网环境下的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:www136768
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,网络上出现了海量的口语化信息(博客,微博,聊天记录等),如何使用计算机自动处理这些信息,分析其语义和意图,是一个亟待解决的问题。传统的自然语言处理技术虽然在词法分析和语法分析上趋于成熟,但在语义及意图分析上还鲜有研究,而言语的对话行为(Dialog Act,DA),包含了言语的语用学信息,对于理解言语的语义和意图有重要意义。对话行为反映了一句话在交谈中的作用,它含有丰富的语用学信息,能够帮助我们理解言语的语义及意图[1,2]。本文首先介绍国外关于DA识别的研究现状,然后面对中文口语的特点,提出了三种DA识别方法:基于n-gram的DA识别方法,基于HMM和扩展HMM的DA识别方法,基于KNN+n-gram的DA识别方法。并在中科院的CASIA-CASSIL语料库上进行了DA识别实验。实验表明,本文提出的方法能很好的解决特定领域中文口语的DA识别问题。互联网环境下的中文有其自身特点,如语言结构较为简单、松散,经常出现语言错误等。以上提出的DA识别方法能否用于解决互联网环境下的中文口语DA识别呢?为了探索该问题,我们首先需要构造相应的语料库。本研究使用新浪微博的程序调用接口,下载微博及短对话,并对微博进行分类、过滤、标注和数据库存储,初步构造了一个互联网环境下的中文口语语料库,用于后续研究。最后在此语料库上,使用以上提出的DA识别方法进行了互联网环境下中文口语的DA识别实验。实验表明本研究提出的DA识别方法是领域无关的,它能够用于解决互联网环境下的中文口语DA识别问题。
其他文献
当今随着科技的高速发展和国民经济的发展,人们步入了终身学习型社会,对教育有更多、更高的新要求。网络远程教学以其突破传统教学的时间、空间和地域的限制等优势,越来越受
随着互联网、移动通信技术的迅速发展,特别是以3G技术为代表的移动互联网技术以及移动智能手机的广泛普遍应用,以目不暇接之势将人们带入了一个全新的移动互联网时代,使人们真正
随着互联网上私有的和公开的Web服务的数量与日俱增,传统的服务注册中心仅从服务发现的角度存储当前可用版本的服务信息,缺乏从全局和历史的视角对互联网上曾出现过的Web服务接
学位
以收集检测数据为中心的传感器网络已广泛应用在诸多领域,例如环境监测、城市交通、军事国防、空间探索等。面对传统传感器网络中通信设备单一的数据传输途径,在复杂、远距离的
随着科学技术与现代工业的飞速发展,机器人在各个领域扮演着越来越重要的角色,传统的机器人适应与感知环境能力较弱,已不能满足人类的需求。近年来,视觉技术的发展日新月异,
时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极
现实中,每个人都身处多个不同的社交关系网络,并且在这些社交网络中扮演着各种角色。各种各样的社交关系相互之间交叠的同时又彼此隔离,例如在某个人朋友圈内的人们之间并不
随着生活水平的提高,人们对生活品质要求越来越高,不断的追求绿色、健康生活。但是,现实的情况却往往与人们的追求相差甚多,现代社会出现越来越多的糖尿病、高血压、肥胖等各种富
随着计算机与网络技术的发展,人们的工作和生活与各种信息系统密切相关,而同时信息安全面临着日益严重的威胁。在众多的安全技术和服务中,访问控制是确保系统安全的一个重要手段