论文部分内容阅读
在互联网信息快速增长的今天,物流、电商在农业领域快速发展,人们希望能从网络上快速得到自己想要的信息。本文结合农业领域信息具有时效性、信息类别多的特点,将农业信息服务系统、文本分类系统和信息推送系统相结合,探讨实现农业专题信息的智能化推送服务。首先,设计系统的整体框架与流程。研究使用网络爬虫采集网络上与农业相关的文本信息并建立农业专题的搜索引擎,让用户能精确查找到需要的农业信息。在用户使用搜索引擎的过程中,根据用户的检索历史和浏览历史建立用户兴趣模型,以便于系统分析用户对哪一类的信息比较感兴趣。在进行信息推送服务时,使用文本分类器寻找用户感兴趣的信息进行推送。采用扩展的Heritrix网络爬虫采集网络上与农业相关的文本信息并使用文本分类器分类存储,再使用Lucene全文索引框架对这些文本建立索引库,建立农业专题的搜索引擎系统,改善通用搜索引擎在对面向专题的信息时检索深度不够的问题,提高信息检索的准确度。在农业文本信息分类的问题上,采用先自定义分类类别,再用文本分类器对网络爬虫采集到的农业信息文本进行分类的方式。重点探讨了 KNN文本分类器在类别边界处样本分布密度不均匀时导致的分类错误问题。提出一种基于K-means聚类算改进的KNN分类器,用聚类的簇作为一级分类器,簇中的样本作为二级分类器进行分类,并以实验的方式验证了改进方案的有效性。在用户兴趣模型的建立时,使用关键词访问频率和平均访问时间来计算用户对关键词的兴趣度。考虑到用户关注点是会变化的,引入兴趣衰减因子来淘汰掉用户长时间没有关注的关键词,实现用户兴趣模型的更新。然后探讨了基于用户兴趣模型的查询词扩展方案。在设计信息推送服务方案时,将用户兴趣模型中关键词的兴趣度作为权重,使用改进的文本分类器寻找用户最感兴趣的信息,并推送给用户。最后,对系统Web服务端进行开发,考虑到当前智能手机的普及,还设计了手机移动App端,实现系统与用户的信息交互界面与信息推送。然后对系统进行了功能模块测试。