基于HTTP协议面向藏文文本的实时监测技术研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:dongwinder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2014年以来网络信息安全成为当今社会的热门话题。网络信息安全不仅包括网络信息的保密性、完整性和真实可靠性方面,还包括对网络中充斥着的大量垃圾信息的监管和预防。目前以汉语为对象的垃圾信息过滤以及文本监测技术已经非常成熟,但是以藏文文本为对象的检测技术还有待发展。随着藏文编码国际标准和国家标准的发布和普及,藏文分词技术的日益完善和提高,基于藏文国际编码标准和藏文分词技术的各类应用需求不断呈现出来。网络信息安全对维护国家利益,维护社会稳定,推动信息技术发展有着重要意义。遏制垃圾信息的传播,以及对出现垃圾信息的及时预警是网络信息安全不可或缺的一部分。一个实时监测预警系统能起到维护网络环境和谐、快速反应敏感信息、协助网管人员及时处理突发情况等作用。本文提出了基于HTTP协议面向藏文文本的实时监测系统的整体构架,并根据此架构实现了一个藏文文本实时监测系统。文中主要通过研究基于HTTP的数据还原技术,实时抓取网络中传输的基于HTTP协议的数据包,并对数据包进行排序、拆分重组、数据解压,从而实现实时还原HTTP数据内容;通过研究多语言环境中藏文文本抽取方法,根据还原文本数据的编码方式,采取对应的藏文文本抽措施,实现抽取藏文文本的功能;通过研究有限自动机(DFA)算法和哈希表查找算法,利用有限自动机的思想,结合哈希表查找算法的特性,提出一个高效的关键词查找算法,实现实时预警关键词的功能。本文首次提出并实现将藏文分词技术应用到藏文文本实时监测系统中。藏文分词技术的应用,有利于提高实时预警系统的准确率,也使系统逻辑更加简单。同时本文提出了一个结合了DFA思想和哈希表查找算法的多层动态哈希表关键词查找算法,通过DFA思想将词语分解成多个字节,并分别对这些字节建立哈希表树,从而减少每层哈希表的数据含量,进而尽可能的避免哈希表中冲突的发生。最后经测试,本文提出的基于HTTP协议的藏文文本实时监测系统,具有良好的实时性,和预警准确性。
其他文献
伴随着经济一体化、全球化趋势的发展,集装箱运输保持了较高的增长速度,为中国的集装箱运输的发展带来了新的机遇与挑战。集装箱发展迅速并且会持续增长,如何对港口集装箱物
伴随着测序技术的重大改革以及新一代测序技术的兴起,人类基因组草图的完成以及千人基因组计划的开展,无一不昭示着个人基因组时代的到来。如何管理这些海量的异构的个人基因
移动智能终端的普及促进了基于位置服务(LBS)的快速发展,LBS的广泛应用给人们日常生活提供了极大的便利,带来了广阔的市场和商机,但同时也存在着隐私泄露的风险,位置隐私的泄
非真实感绘制技术是当今计算机图形学研究的热点问题之一,它不像真实感图形学那样追求像照片一样的真实感,而是希望通过忽略图像中的一些不重要的细节,来突出图像要表达的信
无线传感器网络是由大量分布在特定区域的无线传感器节点组成的,这些节点能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到用户,具有无线通信、传
互联网已成为全世界范围内的信息传播和资源共享的平台,但随之而来的诸多问题也日益显现。如何保障信息的安全与个人的隐私是一个关键性的问题。匿名通信技术是一种保护信息
随着互联网、物联网、移动互联网的飞速发展,海量的数据信息产生了信息过载问题。尤其在大型电影推荐网站,如何通过一种有效的机制来帮助用户快速的获取到想要的电影信息,这
针对软件危机,基于构件的软件开发方法被提出来。在基于构件的软件开发过程中,构件库扮演了重要角色。实践中构件数量不断增长,如何实现构件库中对构件的有效的检索就成为构
近几年,随着经济社会的快速发展,城市化的进程的加速,居民收入水平稳步提高,对土地的需求量也相应增大,占用了大量的优质农用耕地,面对日益严峻的耕地的流失问题,必须制定切实有效的
在移动计算终端上进行三维图形计算是一个重要的课题,针对移动设备计算能力有限,存储空间不足,屏幕分辨率小,无线网络带宽受限等特点,研究如何进行移动三维图形的渐进显示具