文本分类算法在高校档案管理中的应用研究

来源 :西安石油大学 | 被引量 : 0次 | 上传用户:luzhiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国高等教育的飞速发展,各高校档案馆所管理的档案也越来越多,为此许多高校都已经装备了档案管理软件来对档案进行计算机管理。然而目前主流的针对高校的档案管理软件都没有对档案文件进行自动分类的功能,为减轻高校档案馆业务人员的工作量,本文探索一种适合高校档案的文本自动分类方法。本文首先较为系统的综述了中文文本分类算法的发展进程和当前文本分类算法的发展动态,详细的介绍了文本表示、文本特征选择、特征提取,特征加权,分类算法、分类器的构建、分类器性能评估的研究现状。作者根据高校所管理档案的特点,对传统的中文文本分类算法中的一些步骤进行了改进,根据高校档案的周期性、重复性、知识性等特点,同时借鉴档案馆业务人员在手工对档案进行分类时只需通过观察档案正题名和责任者信息即可确定其类别的分类方法。提出了依靠类别词库、停用词库和责任者词库等基础词库来支持以档案正题名和责任者为主要分析对象的基于语义的短文本多因素加权分类算法。在该算法中首先采用统计分析和人工经验相结合的方法为十个档案大类的每个小类分别构造了类别词及权值,再从已分类的档案信息中提取责任者信息构造了责任者词库,并通过人工经验构造了停用词库。在本算法中,首先通过责任者信息确定一份档案所属的大类,然后对档案正题名进行去停用词操作并提取其中包含的类别词和权值,之后通过加权求和比较大小确定该档案所属的类别。实验表明,在档案文件的正题名和责任者信息比较完整的情况下,该算法初次分类成功率达到了93%,不能准确分类的档案往往题名和责任者信息较为模糊或者部分信息缺失。对于未能准确分类的档案文件可以转人工处理,同时通过调整停用词库和类别词库及权重系数能进一步提高分类的成功率。此算法的成功运用大大的降低了高校档案馆业务人员的工作量,取得了较好的效果。
其他文献
石家庄铁路客运段动车乘务员是我国准高速列车开通运行由特定的标准而招收的新一代列车乘务员,她们学历高、年龄小、体型好,是动车上的一道亮丽的风景,她们也承受着较大的旅
代谢综合征以肥胖尤其是中心性肥胖、胰岛素抵抗、高血压、高三酰甘油血症、低高密度胆固醇、糖耐量受损或2型糖尿病为主要临床表现的一个症候群。常伴发心脑血管疾病等全身
互联网金融是在互联网技术的基础上,出现的一种新型金融模式,对我国金融体制的改革以及普惠金融的发展具有重要意义,但同时也具备较高的风险。本文将针对互联网金融风险进行
目的 探讨垂体后叶素在宫腔镜子宫肌瘤电切术中对液体吸收及出血量的影响。方法回顾2007年1月至2010年9月109例子宫黏膜下肌瘤患者行宫腔镜下子宫肌瘤电切术的临床资料,其中病
目的观察呋塞米治疗产后妊娠高血压疾病性心衰患者疗效。方法将120例产后妊娠高血压性心衰患者随机分为呋塞米治疗组(治疗组1、治疗组2、治疗组3)和常规治疗组(对照组)。观察4组