基于后缀树模型的流文本表示研究及其应用

来源 :中国科学院计算技术研究所 | 被引量 : 5次 | 上传用户:hummerandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的不断普及,流数据处理逐渐受到人们的关注。相对于传统的静态数据,流数据具有高度的流动性,对实时更新的要求较高。本文面向网络信息内容分析这一背景,针对流数据处理中的流文本表示问题,考察了现有的文本表示方法,提出并实现了基于后缀树模型(STM)的流文本表示方法。该表示方法具有以下特点:利用后缀树模型动态增删的特性,支持对流文本表示进行实时更新,直接对后续操作结果产生影响;利用后缀树模型快速匹配的特性,可以实时获得表示流文本的向量,不需要进行分词以及特征提取等复杂计算;采用不定长匹配,得到合适的语言粒度,能够较好地反映文本特征;利用了上下文的位置信息,可以为后续操作提供更多的信息量;由于不需要进行分词和特征提取,该表示方法与具体语种无关。在此基础上,本文将基于后缀树的文本表示方法结合分类算法,以SpamAssassin邮件过滤平台为依托,实现了一个垃圾邮件过滤系统。该过滤系统采用通用后缀树模型(GSTM)表示训练集中的邮件,对于到达的新邮件,利用邮件内容的上下文位置信息,进行文本位置的不定长多元统计,从而获得新邮件与不同训练集的相似程度,确定邮件所属类别。理论分析和实验表明:将长度为N的新邮件加入训练集,训练时间为O(N),满足了训练集的动态变化;对长度为N的新邮件进行过滤,过滤时间为O(N);在相同语料上,该系统的准确率和召回率均达到或超过了其他基于空间向量模型的邮件过滤方法;完全独立于语种,适用于多语种邮件同时存在的情况。通过理论分析和实验验证,本文所提出的基于后缀树模型的流文本表示方法具有有效性和实用性,有助于流数据处理问题的进一步研究。
其他文献
本论文以面向对象分析设计为核心思想,从中央广播电视大学教务管理系统出发,以建立数据访问模型为手段去建立与面向对象程序无缝连接的数据模型,并总结一种分布式应用系统的数据
软件测试是软件工程中的一个阶段,是保证软件质量的一个重要手段。随着面向对象软件开发技术的广泛应用和软件测试自动化的要求,特别是基于UML的软件开发技术的逐渐普及,基于UML
本课题在综合考虑水平井完井方式和井筒流动影响基础上,建立了一套复杂的水平井完井耦合模型,并设计编写相应的数值模拟程序求解模型,对模型参数进行了敏感性分析。这些研究成果
TCP协议最初是为有线网络而设计的,因此运行在有线网络上性能良好。但是目前随着无线技术的快速发展,网络已经从有线网络发展成为有线链路与无线信道共存的异构网络。当TCP协议
在P2P系统的实际运行中,用户的不合作行为一直是威胁P2P应用系统十分显著的问题,并且成为近几年P2P计算研究的热点之一。在基于节点合作所构建起来的P2P应用系统中,用户认为无私
保险公司经过十多年的计算机信息系统的建设已经具备了较完善的业务及其支撑系统,并积累了海量业务数据。但是,这些数据分散在多个独立系统中,信息分散、不共享,数据的完整性、一
汉语自动分词是中文信息处理领域的基础课题,而且也是进行其它中文信息处理的前提,它有三个主要难点分别是分词规范,歧义字段切分和未登录词,国内外许多研究人员在这一领域都
IEEE 802.16无线城域作为未来无线接入技术的重要发展方向,备受各界广泛关注。然而,安全问题一直制约着其进一步的推广与发展。本论文在前人研究的基础上,探讨了IEEE 802.16无线
虚拟化环境是指将多个客户操作系统运行在一台传统的物理服务器的计算环境。虚拟化环境中的每一个客户操作系统称为一个虚拟主机。虚拟机技术屏蔽了客户操作系统和底层硬件之
近年来,随着便携式计算机、个人数字助理等移动终端设备的广泛使用,无线通信和个人通信系统的不断发展,针对移动自组网的研究成为热点课题之一。移动自组网是一种没有基础结构支