论文部分内容阅读
一直以来,情报机构的主要职能是将搜集汇总的大量情报素材加以分析研究,形成情报产品后提供给情报用户,以利于情报用户决策。而在情报机构处理的各类情报素材中,公开来源的文本素材是所处理的情报素材的重要组成部分。而随着近年互联网技术的飞速发展,由网上电子文档、电子邮件、数据库等形式承载的文本信息量正不断爆发式地增长,情报素材来源极大丰富,传统的情报处理方法已经越来越难以满足任务需要。与此同时,情报用户的情报需求越来越旺盛,时效要求越来越高。如何从浩瀚的互联网公开信息中挖掘出有用的文本信息并对其进行高效率的处理上报,业已成为当前情报机构急切需要解决的重要问题。针对当前情报机构面临的情报质量和情报效率两个现实问题,本文尝试利用文本挖掘的相关技术,对情报机构所获情报素材开展预处理、分类和价值挖掘研究,探索提高情报处理效率和从零散情报素材中发现情报价值有效方法。本文主要工作有:一是情报预处理技术研究。情报文本分词是预处理的关键环节。本文结合情报处理工作实际需要,提出了基于专门领域的情报词典的分词策略,同时构建了一个简单的情报专业领域词典,有效地提高了情报文本的分词准确率。二是情报分类研究。本文利用KNN(k-nearest neighbor)分类算法进行情报文本的分类。分析了KNN分类方法的不足,采用改进KNN的方法进行了分类系统设计;通过对比实验发现,改进后的KNN分类方法比改进前分类准确性和效率都有明显提高。三是情报价值挖掘研究。本文利用关联规则算法推导军事情报的要素之间的强关联规则,利用Apriori算法进行情报价值的深度挖掘。针对军事情报分析工作的特点,本文采用优化后的Apriori算法,着眼于情报要素重要性差异,将重要性大的情报要素赋予较大权值,将重要性小的要素赋予较小的权值,从而挖掘出更多可靠而且潜藏的情报结论。最后,本文对情报素材进行预处理、分类和价值挖掘后,基于海空军事目标的位置关联性,尝试研究情报报告自动生成方法。本文的研究工作和研究成果对于情报实践这一专业领域的文本挖掘技术研究有一定的理论意义;尤其是将文本挖掘技术与现实情报工作流程相结合,可以有针对性地提高情报处理工作的效率和有效性,对现实情报处理工作具有一定的参考价值。