【摘 要】
:
随着网络技术的快速发展,网络信息量迅速增加,呈现出海量、异构、动态的特点,如何从网络信息中发掘潜在、有用的知识成为一个重要的研究方向。Web文本挖掘是使用数据挖掘技术
论文部分内容阅读
随着网络技术的快速发展,网络信息量迅速增加,呈现出海量、异构、动态的特点,如何从网络信息中发掘潜在、有用的知识成为一个重要的研究方向。Web文本挖掘是使用数据挖掘技术自动地从Web文档和服务中发现和提取信息和知识的技术,在网络信息处理过程中,Web文本挖掘是加快查找速度,提高查找准确率的重要手段之一。本文介绍了Web挖掘常用方法、Web挖掘分类,详细阐述了Web文本挖掘流程、文本特征表示和提取、文本信息抽取、分类、聚类、关联规则等关键技术及典型算法。在比较了不同的机器学习方法后,本文提出基于隐马尔可夫模型(HMM)的Web文本挖掘方法,介绍了实验训练数据的收集,隐马尔可夫模型的组成,隐马尔可夫模型的三个问题及典型算法,在对训练数据集进行标记的基础上,利用最大似然算法实现隐马尔可夫模型的构建,对实验数据集中的论文条目进行进一步解析,实现测试数据集中不同域信息的提取,实验结果表明该方法是可行的。对于未标记训练数据集,本文提出基于遗传算法和隐马尔可夫模型的Web文本挖掘方法。该方法利用Baum-Welch算法学习隐马尔可夫模型的概率分布,但Baum-Welch算法本身为梯度下降训练算法,在隐马尔可夫模型概率分布学习过程中存在局部极小和对初始参数敏感的问题。为减少这些问题对识别过程的影响,本文引入遗传算法,并结合Web文本的特点对基本遗传算法进行了相应的调整,提出了GA-HMM模型,该模型利用遗传算法寻找隐马尔可夫模型初始参数的全局最优解,改善了HMM训练效果,提高系统的效率。通过对大量的实验结果进行比较,本文得出基于GA-HMM的文本挖掘方法更具优越性的结论。
其他文献
在当前市场经济的背景下,农产品市场竞争力对推进农业的持续稳健发展具有十分重要的意义。江西为从农业大省向农业强省转变,应进一步提升农产品市场竞争力,提高市场占有率,增加农
从世界经济发展的实践来看,近年来发生的由于限制贸易而导致的FDI自由化和由于限制FDI而导致的贸易的低效性,反映了各国在贸易政策与投资政策制定方面顾此失彼、缺乏系统性和一
密封条是以橡胶、塑料或二者混合为原材料,通过挤出或注射成型的一种密封件,被广泛的应用于汽车、建筑、轮船、航空等领域。随着对密封条质量的要求越来越高,传统的手动测量与控
以广州市进生物岛隧道工程勘察为例,介绍沉管隧道综合勘察的方法和工作步骤,主要内容包括:工程地质调查与测绘,工程物探,工程钻探,水文测验,河势推演分析和河工模型。
该文通过对王旭高《环溪草堂医案》《王旭高医案》及《西溪书屋夜话录》等著作中关于木土同病论治的理论、医案的分析,总结了王旭高木土同病论治的独特经验。
中国国家坐标系采用的是高斯投影坐标系,有些国家采用通用横轴墨卡托投影坐标系,这两种投影方式既相似又有一定的区别。介绍一些在通用横轴墨卡托(投影)平面直角坐标系下施工
从2005年开始,我国多媒体网络杂志因其区别于传统媒体的全新视听效果而受到资本市场的青睐。2006年其发展更是如火如荼。本文对我国多媒体网络杂志的传播者、受众、传播内容、
目的探讨舒适护理在老年性哮喘患者护理中的作用。方法对32例老年性哮喘患者在住院环境、心理、体位、睡眠、排痰、吸氧、饮食等方面的不舒适问题采取针对性的护理措施。结果
索力测试频率法广泛应用于索结构的施工控制和健康监测中。国内外学者迄今在这方面做了大量的研究工作。由于索结构在实际工程应用中的多样性和复杂性,频率法的研究明显滞后于
会馆建筑是中国传统建筑的重要组成部分之一。历经明清两代,发展成为一个独立的、成熟的传统建筑类型。明清会馆建筑在建筑艺术、装饰艺术、室内外环境艺术等方面都达到了极