论文部分内容阅读
基于高速互联网(INTERNET)链接的分布式WWW服务在很短时间内便产生了大量的信息。随着时间推移,在WEB页面中存储的信息在互联网的各个站点中不断地进行着运动,使得相关领域的信息具有了海量且离散的特点。以WEB为存储介质的信息所具有的这些特征给用户搜索信息带来了不便;同时,大量不完整的信息充斥在各个网站中,使相关领域的从业人员无法判断信息的真实性和有效性。为了解决这些问题,本研究提出了WEB信息整合的概念。在此基础上,通过相关技术地引入和创新,对行业领域内以WEB为存储载体的信息从发现、组织和定位三个方面进行了整合方法的探讨,并建立了WEB信息整合的模型。在实践阶段,使用该模型及其中包含的方法对互联网网站中的林产品信息资源进行了整合。林产品信息资源WEB信息整合的具体实践方法包括以下三个方面。(1)信息源的发现。通过对与林产品相关领域内不同类型网站WEB页面的特征分析后,提出了一种基于关键资源的网站识别算法(TD-SVM),用于判断网站的类别。并通过网络爬虫程序和TD-SVM算法对互联网中提供林产品信息资源的网站进行了识别与发现,为林产品WEB信息整合提供了信息源的基础。(2)信息的组织。在对林产品信息资源的信息组织的过程中,构建了林产品信息资源的知识分类体系。以该分类体系为基础,通过改进特征抽取算法的朴素贝叶斯分类器对抽取的林产品信息资源进行了多层次分类,从而完成了对海量林产品文本信息地有序化组织,为林产品信息资源的整合提供了数据基础。(3)信息的定位。信息定位的过程中从包括基于语义扩展的信息检索和对林产品信息资源知识库中的知识发现两方面进行讨论。具体实现过程为,通过引入本体对林产品信息资源进行知识建模;用改进的本体概念节点相似度算法对检索词进行语义扩展;使用手工标引的方法将林产品流通领域的规则扩展到知识模型,然后使用描述逻辑从林产品知识模型中推理出隐含的知识,最终实现知识层面的信息整合。本研究提出WEB信息整合模型以及涉及到的方法对林产品信息资源从信息发现、信息组织和知识发现三个层次上进行了探讨和实践。该模型与方法对其它领域的WEB信息整合的实践活动具有一定的参考价值和指导意义。