【摘 要】
:
即时通讯技术的发展以及信息技术的普及促进了手机短信、基于互联网和手机短信息的客户评论等短文本信息处理技术的发展,同时短文本处理技术的发展和实际应用又息息相关,它在
论文部分内容阅读
即时通讯技术的发展以及信息技术的普及促进了手机短信、基于互联网和手机短信息的客户评论等短文本信息处理技术的发展,同时短文本处理技术的发展和实际应用又息息相关,它在信息安全、客户评论反馈等领域都存在着实际的需求,使中文短文本分类问题成为一个重要的研究方向。
由于短文本所描述概念信号弱的特性,现有的对长文本分类性能好的分类技术用于短文本时分类器性能变坏。短文本分类的可行途径是利用外部资源中的额外信息来辅助分类,以弥补短文本的固有缺陷。关联规则挖掘算法正好可以在一定程度上解决短文本知识发现的问题。本文利用关联规则挖掘算法,就中文短文本中共现关系的挖掘、特征的扩展进行了研究。主要工作如下:
(1)提出一种基于测试文本特征扩展的短文本分类方法。该方法将短文本视作事务,将特征词视作项,利用FP-Growth算法挖掘训练集特征项中的共现关系,创建特征共现集作为扩展词表。在分类阶段,先根据特征共现集把测试文本中的特征的共现词作为特征补充进来,然后再进行分类。
(2)提出一种基于训练文本特征扩展的短文本分类方法。该方法与(1)中方法基于相同的扩展词表,但是扩展方法不同。在没有引入新的特征的前提下,在训练阶段用一种基于共现关系的特征权重调整方法实现训练文本特征扩展。
实验结果表明,这两种方法具有较高的分类性能,其微平均F1和宏平均F1值都高于常规的文本分类方法,在一定程度上解决短文本所描述概念信号弱的问题。
其他文献
随着网络通信技术和嵌入式系统的不断发展融合,嵌入式以太网技术在人们的工作生活中已经起到越来越重要的作用。由于TCP/IP协议实现的复杂性及嵌入式系统硬件资源的限制使得
随着云计算的不断发展,越来越多的组织开始进入云计算的领域。由于其技术成熟,OpenStack开源云平台成为了大多数组织的选择,并已成为了事实上的IaaS基础设施的部署标准。然而
随着信息与网络技术的发展,以及这些技术在军事领域的不断渗透,计算机网络已成为连接未来信息化战场的枢纽。对计算机的攻击,能够获得大量宝贵的情报以及达到其它武器系统所
手机是目前社会的一种普及的信息交通工具,其集成了许多通信和多媒体功能于一身,功能强大,使用方便。手机的多功能决定了它的软件管理系统在设计和实现上比较复杂。本系统就是对
语音编码是通讯中一个关键技术,它直接影响到通信质量、频率利用率和系统容量。近年来,随着第三代移动通信的发展,变速率语音压缩编码技术得到快速发展和广泛应用。
AMR(Ad
随着语义网研究的深入以及信息抽取技术的进步,近年来RDF语义数据增长迅速,更多复杂的语义数据需要处理与应用。常见的RDF数据集都有上亿的三元组,如何高效地对海量RDF语义数
机器人团队协作检测与跟踪动态目标是多移动Agent系统的协同和目标跟踪技术相结合的产物。为了满足实时协作跟踪的需要,本文设计了一个复合式多移动Agent系统多目标协作跟踪
图像分割是将图像表示成为物理上有意义的连通区域的集合,即图像像素点在不同区域间的所属归类问题;粒度计算主要是研究不同粒子往返跳转于不同粒度空间,以寻求所属粒度区域的过
资源定位问题是P2P网络的核心问题之一,也是P2P网络研究的热点。P2P的资源定位模型,按照网络拓扑结构,可分为四种:中心拓扑的定位模型,分布式非结构化的定位模型,分布式结构
手语合成把自然语言文本翻译成聋哑人能够理解的手势语言,并以计算机动画的形式表现出来,研究的目的是服务聋哑人群。实时三维人体动画是计算机图形学最活跃的研究方向之一,广泛