农业信息搜索引擎分类器的研究

来源 :东北农业大学 | 被引量 : 1次 | 上传用户:liubin523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网高速发展,人类社会迈入网络信息爆炸时代,这带来了网络上农业知识信息的激增,给农业从业者带来了农业信息查找的便利。知识意味着财富,农业从业者从这些农业信息中撷取财富信息,然而,海量的农业知识信息不意味着可以快速有效的查询出所需信息,农业领域细化信息的快速定位与分类查找是必要与必须的。本文以农业信息搜索引擎分类器为研究对象,全面的介绍了当前信息文本分类器现状、国内外分类器发展历程,在分类特征提取、训练样本和众多分类算法基础上,从农业信息文本分类特征项提取方式上从手,提出了具有农业信息文本特色的特征提取方式,在此特征项训练基础上,建立农业信息文本训练库,针对分类算法分类效果各有差异,使用改进优化后的朴素贝叶斯分类器对农业信息进行分类,设计实现了农业信息搜索引擎分类器系统。世界上不会存在一模一样的两片叶子,每个对象都具有其独特性,文本信息对象也都具有各自独有识别特征以供识别分类。本文对文本特征提取四种方式信息增益、互信息、卡方统计和文档频率进行算法论述与实现实验比较,提出农业信息文本特征提取方式:基于文档频率的文本特征提取,将TF-IDF、空间向量模型与余弦相关度的计算运用其中,在此基础上,依据农业信息分类原则,根据识别度,选取各农业类别的文本信息,最终建立了农业信息文本训练库。任何一种分类算法都不具有绝对优越性,都存在不同分类偏差,不同文本信息,分类器分类效果不一样。本文实验比较了决策树算法、K-近邻算法、支持向量机和朴素贝叶斯四种分类算法对农业信息文本分类情况,运用并改进优化朴素贝叶斯分类器,主要改进点两个方面:朴素贝叶斯算法计算公式变化,将二值模型变换成多项式模型,建立多项式模型公式,进行实验结果数据比较;在分类器部署方式上,将分类器分布式部署到多台计算机,采用Top-N算法排序结果,进行实验结果数据比较。本文根据多组分类实验比较结果,在软件设计理论上,结合上述改进优化后朴素贝叶斯算法,使用农业信息文本训练库,设计并实现了农业信息搜索引擎分类器系统,对农业信息文本分类实验测试得出结果数据。实验结果表明,经改进优化后朴素贝叶斯分类器分类精度更高,分类速度更快,是实用可靠的农业信息搜索引擎分类器系统。综上,本文在农业信息搜索引擎抓取农业信息文本基础上,从分类信息文本特征提取、农业信息文本训练、分类算法上对农业信息文本分类器研究,通过实验对比,提出农业信息分类特征提取方式,建立农业信息文本训练库,从算法上对朴素贝叶斯分类器改进,从部署上,将分类器系统分布式部署分类,最终达到改进优化农业信息文本分类器。本文为农业信息文本分类提供了理论和基础实验平台,同时,本文研究也可作为实际应用推广应用。
其他文献
无线传感器网络是由大量感知节点自组织形成的网络系统,具有大规模部署、资源受限、自组织等特点。近年来,无线传感器网络受到了越来越多的关注,而且被广泛应用到环境、医疗
医疗保险是社会保障体系的重要组成部分,随着我国经济体制改革的不断深化,建立健全完善的社会医疗保险制度,是切实保障城镇居民基本医疗水平、促进社会经济繁荣发展、保障社会长
解决配送车辆的路由问题,是现代物流系统优化中的关键,也是电子商务中的重要环节。对配送车辆进行优化调度,能够降低企业物流运营成本、提高物流工作效率。车辆路由问题(Vehicle
在对专业领域社会网络的抽取过程中涉及很多大数据集,将社会网络的抽取应用到一个大的组织(用户群)的时候,提交到搜索引擎中的关键字的数目成为了一个关键性的问题。由于需要
性能评价的目的是描述和分析系统的动态及与时间有关的行为。尽早将功能、时序行为检验与设计相结合,可以在很大程度上消除不必要的错误,提高设计质量。评价模型常采用变迁模型
随着计算机和网络技术的快速发展和广泛应用,网络安全问题越来越显得突出。无论是传统的静态网络安全技术(如防病毒、防火墙等),还是动态网络安全技术(如入侵检测系统、入侵防
游戏软件产业作为一个新兴的高技术产业,已经成为同影视、音乐等并驾齐驱的全球最重要的娱乐产业之一。游戏软件对高质量的3D动画图形运算和显示具有很高的要求,同时由于游戏的
在众多身份认证方法中,生物特征认证技术由于其利用了人体本身所固有的特征,具有更高的安全性、可靠性和有效性,因此越来越受到人们的重视。以人脸为特征的识别技术是一种最容易
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量可供使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。 进行数据挖掘的方法很多,粗集方法便是其
足球视频影响着人们的日常生活,人们对足球视频的关注更多地体现在对其中进球,射门,罚牌等精彩事件的关注。然而用人工的方法从大量的比赛视频数据中查找人们感兴趣的精彩事件是