中文口语的DA识别方法研究及在互联网环境下的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户：www136768

【摘要】

：

随着信息技术的飞速发展，网络上出现了海量的口语化信息（博客，微博，聊天记录等），如何使用计算机自动处理这些信息，分析其语义和意图，是一个亟待解决的问题。传统的自然语言处理技术虽

【作者】

：

刘鹏

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2014年期

【关键词】

：

互联网环境口语化微博对话行为意图识别 n-gram 隐马尔科夫最近邻

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展，网络上出现了海量的口语化信息（博客，微博，聊天记录等），如何使用计算机自动处理这些信息，分析其语义和意图，是一个亟待解决的问题。传统的自然语言处理技术虽然在词法分析和语法分析上趋于成熟，但在语义及意图分析上还鲜有研究，而言语的对话行为（Dialog Act，DA）,包含了言语的语用学信息，对于理解言语的语义和意图有重要意义。对话行为反映了一句话在交谈中的作用，它含有丰富的语用学信息，能够帮助我们理解言语的语义及意图[1,2]。本文首先介绍国外关于DA识别的研究现状，然后面对中文口语的特点，提出了三种DA识别方法：基于n-gram的DA识别方法，基于HMM和扩展HMM的DA识别方法，基于KNN+n-gram的DA识别方法。并在中科院的CASIA-CASSIL语料库上进行了DA识别实验。实验表明，本文提出的方法能很好的解决特定领域中文口语的DA识别问题。互联网环境下的中文有其自身特点，如语言结构较为简单、松散，经常出现语言错误等。以上提出的DA识别方法能否用于解决互联网环境下的中文口语DA识别呢？为了探索该问题，我们首先需要构造相应的语料库。本研究使用新浪微博的程序调用接口，下载微博及短对话，并对微博进行分类、过滤、标注和数据库存储，初步构造了一个互联网环境下的中文口语语料库，用于后续研究。最后在此语料库上，使用以上提出的DA识别方法进行了互联网环境下中文口语的DA识别实验。实验表明本研究提出的DA识别方法是领域无关的，它能够用于解决互联网环境下的中文口语DA识别问题。

其他文献

网络远程教学平台的CDN系统的设计与实现

当今随着科技的高速发展和国民经济的发展,人们步入了终身学习型社会,对教育有更多、更高的新要求。网络远程教学以其突破传统教学的时间、空间和地域的限制等优势,越来越受

学位

远程教育CDN内容分发技术内容存储技术内容管理技术负载均衡技术

面向海量数据的开机提醒智能应答系统研究与实现

随着互联网、移动通信技术的迅速发展，特别是以3G技术为代表的移动互联网技术以及移动智能手机的广泛普遍应用，以目不暇接之势将人们带入了一个全新的移动互联网时代，使人们真正

学位

海量数据开机提醒智能应答Hash算法

Web服务档案信息管理与分析研究

随着互联网上私有的和公开的Web服务的数量与日俱增，传统的服务注册中心仅从服务发现的角度存储当前可用版本的服务信息，缺乏从全局和历史的视角对互联网上曾出现过的Web服务接

学位

Web服务档案服务质量QoS

基于时序优先的应用级多核模拟器的研究与实现

学位

多途径数据通信研究及嵌入式通信处理机硬件设计

以收集检测数据为中心的传感器网络已广泛应用在诸多领域，例如环境监测、城市交通、军事国防、空间探索等。面对传统传感器网络中通信设备单一的数据传输途径，在复杂、远距离的

学位

数据链路多途径嵌入式通信处理机

基于视觉感知的机械臂运动控制研究

随着科学技术与现代工业的飞速发展,机器人在各个领域扮演着越来越重要的角色,传统的机器人适应与感知环境能力较弱,已不能满足人类的需求。近年来,视觉技术的发展日新月异,

学位

双目视觉相机标定手眼关系标定正逆运动学

中文文本自动分类的应用研究

时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极

学位

文本分类KNN拉推策略权向量

基于社交关系的流行病传播与免疫机制研究

现实中,每个人都身处多个不同的社交关系网络,并且在这些社交网络中扮演着各种角色。各种各样的社交关系相互之间交叠的同时又彼此隔离,例如在某个人朋友圈内的人们之间并不

学位

流行病传播社交关系个体应激性多社交网络免疫策略

基于全局运动的视频分割与运动识别算法研究

随着生活水平的提高，人们对生活品质要求越来越高，不断的追求绿色、健康生活。但是，现实的情况却往往与人们的追求相差甚多，现代社会出现越来越多的糖尿病、高血压、肥胖等各种富

学位

双滑动窗口视频分割全局运动支持向量机运动识别

基于角色和属性的复合访问控制模型的研究与应用

随着计算机与网络技术的发展，人们的工作和生活与各种信息系统密切相关，而同时信息安全面临着日益严重的威胁。在众多的安全技术和服务中，访问控制是确保系统安全的一个重要手段

学位

访问控制角色属性R&ABAC

中文口语的DA识别方法研究及在互联网环境下的应用

其他学术论文