论文部分内容阅读
计算机技术的飞速发展和信息化的不断推进,保密工作面临的问题日趋凸显,而定密工作是保密工作的源头性和基础性工作,决定了保密工作的效率和质量,因此,实现定密工作的高效性、准确性和智能性是现实的迫切需求。当前,国内各机关、单位主要采用人工定密的方式,存在着一些新老问题,比如,定密职责不规范、不明确;定密尺度难以把握、经验难以积累;涉密数据难以管理等问题。针对这些实际问题,本文针对文本定密分类关键技术开展研究,重点对CHI统计特征选择和TFIDF权重计算方法进行优化和改进,在此基础上设计并实现了融合规则定密和特征向量定密的计算机辅助定密系统,大大提升了定密工作效率。本文的工作主要如下:(1)针对数据集偏斜和文本篇幅差异,且传统特征选择方法和权重计算方法不能很好解决问题而导致分类不准确的情况,本文重点在CHI统计特征选择和TFIDF权重计算两个方面展开研究。定义了密度因子以修正原始数据,对特征分布进行优化,进而引入标准差和信息熵描述了特征类间分布和类内分布情况。在此基础上,将特征类内分布熵和词频因子融入CHI统计模型,改进了传统的CHI统计方法;综合了特征类间分布权和类内分布熵,改进了 TFIDF权重计算方法。针对两种方法,通过实验对准确率、召回率和F1值等性能指标进行了分析,实验表明,方法可以有效地提升文本分类的精度。(2)基于以上方法,并对涉密关键词库和定密规则库进行构建,设计并实现了计算机辅助定密系统。系统主要包括两部分功能,即基于规则库的文本定密和基于特征向量的文本定密方法。对系统实现进行了详细描述,并对系统的性能进行了测试,可较好提升定密工作的准确性和效率。