文本挖掘算法及其在知识管理中的应用研究

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:xielongj_30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识经济的到来,知识管理在社会经济中的作用日益重要。大多数的知识管理研究是为企业服务的,针对科研管理部门的知识管理研究非常少,本文对我国科研管理部门的知识管理问题进行研究。与其他领域相比,科研管理部门的知识管理有一定的特殊性。比如,科研管理部门管理着蕴含大量知识的立项建议申请书。挖掘并利用申请书中的知识,能够在从科学研究整体层面、学科领域层面和项目管理层面对科研管理工作提供决策支持。申请书中的知识隐含在申请书内容之中,从申请书中挖掘知识会面临如下问题:申请书的知识表示不能完全依赖于词典;申请书研究内容与申报学科领域不能完全吻合;学科代码体系结构与实际研究领域的体系结构不能完全一致。针对上述问题,本文在以下几个方面进行了研究:第一,提出一种不依赖于词典抽取高频词的桥接模式滤除算法(BPFA)。首先基于N-gram技术获取文本中的汉字结合模式及出现频率,然后通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理。本文应用该算法,抽取申请书中出现的新术语,补充到系统词表中。第二,粗分类数据中包含有文本内容与类别标记不符的噪声数据,这些噪声数据会对文本分类结果的精度产生不良影响。本文提出一种针对粗分类数据的噪音修正算法。首先建立文档关联网络,把文档上标记的类别作为原始的社团结构,并用模块度衡量社团结构的质量,通过优化模块度指标把噪声数据调整到正确的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,具有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。本文把申报到各个学科代码下的申请书作为粗分类数据,应用该算法把与代码不符的申请书调整到正确的代码中。并根据调整后的数据建立代码模型,分析代码所代表研究领域的内涵和外延、代码之间的交叉关系。第三,提出基于公共连接强度的快速聚类算法。利用社团成员之间的相似关系定义了社团连接强度,根据社团的公共连接强度定义了一种新的相似度计算方法,并应用该相似度计算方法提出一种凝聚聚类算法。在相似度计算中,综合考虑了社团内部和外部结构关系,因此能够避免其他算法在聚类初期容易出现的聚类错误。分别对拓扑和加权的实验数据进行聚类,实验结果证明了所提算法比其他算法更为有效。本文应用该算法对申请书进行聚类分析,形成了项目类,并对项目类和学科代码之间的关系进行了分析。本文在理论方法研究的基础上,对国家自然科学基金委员会的基金管理工作进行了应用研究,分析了我国基础科学研究的整体发展状况和发展规律、各个学科领域的研究状况及其关系等,为制定发展规划、发展战略、学科代码体系调整以及项目管理提供决策支持。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
利用采自全国12个省市、分属A~G 7个群40个生理小种的146个菌株对中早39进行了稻瘟病抗谱测定。结果显示,中早39对籼型小种的平均抗谱为82.9%,对粳型小种的平均抗谱为71.2%。
支出、费用、成本是关系极为密切的三个概念,无论在理论上还是在实际工作中,人们都要经常运用到.然而,支出、费用、成本的内容究竟包括哪些?它们之间的关系又怎样?理论上对其
近年来,随着科学技术的不断发展,我国农业现代化的进程逐渐加快,并且水利灌溉工程施工技术正趋于完善,为广大农户带来了极大的便利。因此本文将对农村水利灌溉工程施工技术的
对以地下水为主要供水水源的城市进行地下水饮用水源地保护区划分将提高饮用水的安全保障程度。在总结地下水水源地划分的原则和方法基础上,利用FEFLOW软件建立了吴忠市金积傍
进入20世纪以来,经济全球化已成为世界经济发展的重要趋势,其中对外直接投资的流入与流出已经成为了各国融入全球化的重要途径。由于实施“走出去”战略可以使一国企业在更大