论文部分内容阅读
随着科学技术的飞速发展,人们已经进入了信息时代。在数字化的计算机环境下,对信息的保护变得越来越重要。尤其,近年国内泄密事件和窃密事件多次发生,不同程度地对国家安全和利益带来威胁。为应对高技术窃密的威胁,帮助保密检查人员进行快速有效地检查非涉密计算机中是否存有敏感信息,防止国家秘密泄露。应当加大技术检查力度,提高保密检查的科技含量,增强泄密隐患和漏洞的发现能力。本文针对基于终端的文档内容进行安全检查,提出了一种基于敏感词的语义计算方法分析文档内容安全的技术框架。论文中对该技术框架的相关理论基础、各主要功能模块进行了阐述,并通过实验数据验证框架的可行性。该系统框架包括四个部分:首先,对终端磁盘文本文档进行搜索,并利用分词工具对找到的文档进行预处理得到待查词库;其次,构建敏感词库并根据需要增减与修改;第三,语义相似度计算,计算敏感词与待查词的语义相似度,然后应用匹配算法进行文本内容相似匹配计算;第四,根据相似匹配结果,判定文档是否敏感。对来自新浪网军事栏目的实验数据进行实验,结果表明:本文提出的方法能够有效提高对敏感词的查全率。对一些隐晦的敏感信息具有很好的查找效果。