基于内容管理的文本自动分类的研究与应用

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:xw511023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和信息技术的日臻成熟,人类社会开始进入了信息时代。企业在信息化的过程中,产生了大量的数据和信息资源,海量的非结构化内容也需要像结构化数据一样加以管理。企业迫切需要一种方法对所有内容进行科学高效的组织、管理和使用,以满足日益多样的业务应用,同时提高信息资源的管理效率,使之成为企业竞争力的重要组成部分。内容管理在这样的需求下应运而生,国外的分析表明,内容管理将成为下一轮软件市场竞争的热点。内容管理虽然前景乐观,但目前仍然存在着很多技术上的难题需要克服。比如在内容发布这一环节中,通常需要一个分类体系以便于用户查找和导航浏览。本文从这一角度出发,以文本格式的非结构化数据作为对象,研究内容管理系统中文本自动分类技术的应用。论文首先分析总结了国内外学者取得的主要理论研究成果,指出了现有研究中存在的问题,在此基础上提出了研究的内容和目标。接着从文本自动分类的过程出发,深入研究了文本自动分类各个步骤中的多项关键技术。然后,针对这些关键技术设计了一系列的实验,通过比较得出分类性能最优的降维技术以及分类算法,同时确定算法中的参数最优值。另外,本文还提出了一种优化训练集的方法,并用实验证明了其可行性。最后,在实际项目背景下设计出内容管理系统下的文本自动分类子系统原型,并将前面的实验结论在项目中进行实际的应用。本文从客运安全监管内容管理系统项目的需求出发,对于系统中不同类别的文本内容,利用实验验证的最优算法和软件工具,解决了内容管理系统中的文本自动问题,最终得出了实际问题的分类结果,具有一定的应用价值。
其他文献
本文从学生满意度的角度,基于魅力质量理论运用IPA分析法以湖南理工学院2019年公共体育大一、大二这2个年级学生为研究对象,分析参与体质与健康活动的制约因素.研究表明:体质