面向信息检索的Web文本挖掘方法研究

被引量 : 0次 | 上传用户：magic1136

【摘要】

：

今天，互联网已经成为一个大众化和交互式的信息发布媒介。Web作为一个巨大的、开放的、异构的和动态的信息容器，产生和容纳了巨大规模的文本、数据、多媒体、临时性数据等各类

【作者】

：

文翰

【发表日期】

：

2012年期

【关键词】

：

Web文本挖掘半监督学习最大期望近邻传播后缀树聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

今天，互联网已经成为一个大众化和交互式的信息发布媒介。Web作为一个巨大的、开放的、异构的和动态的信息容器，产生和容纳了巨大规模的文本、数据、多媒体、临时性数据等各类信息。由于资源分散且没有统一的管理和结构，这就导致相关信息的获取并非易事，人们真正感兴趣的内容常常被淹没在众多无关信息当中。通过Web数据挖掘的研究，把新的Web文本挖掘方法和技术应用到信息检索中去，利用Web文本挖掘的研究成果来提高信息检索中页面内容分类、聚类的精度和效率，改善检索结果的组织，提高Web信息查找和利用的效率，能够直接或间接地解决搜索引擎精度不高、召回率低、信息过载、返回结果组织方式有限以及服务形式单一等缺陷，为信息检索系统发展到一个新的水平提供技术支持。因此，面向信息检索的Web文本挖掘方法研究有着十分重要的理论意义和商业应用价值。目前，从面向信息检索的角度来看Web文本内容挖掘是一个非常活跃的研究方向，众多学者在这个领域进行了广泛而深入的研究，虽然取得了一些可喜的成果与应用，但远远未达到一个成熟的阶段，仍面临许多亟待解决的重要问题：至今还没有发现“最佳”的特征选择的维度削减方法；文本数据高维稀疏，传统的分类、聚类算法的精度和效率难以提高；基于小样本训练的半监督学习问题；海量数据难于查找，如何有效改善检索结果的组织、发布以方便查询浏览等等。本文在现有Web文本内容挖掘方法和研究成果的基础上，进一步围绕Web文本挖掘的关键性问题与方法展开研究。对类别不均衡的非平衡数据、在线评价这类带情感倾向的数据的特征降维问题分别给出解决方案；以半监督学习作为主要研究对象，提出了几种新的半监督学习算法，并应用到Web文本挖掘分析；同时，针对检索结果聚类分析问题提出了一种解决方法，以改善搜索结果组织。在几个常用的标准数据集上，通过相关实验进行对比分析，验证了改进方法的有效性。本文所取得的工作成果以及创新点主要体现在以下几个方面：1.针对非平衡文本集上的分类问题，提出了一种基于Naive Bayesian的增强最大期望(Expectation Maximization, EM)半监督分类算法。首先，构建一个有效的特征选择函数来过滤掉大量无效特征词且保留高类别信息的特征项，利用该特征选择函数使得类别不均衡数据集的特征空间维度能够真正有效降低。同时，对EM算法结合朴素Bayesian分类方法进行改进调整，在每步迭代过程中将后验类别概率最高的未标注文档从未标注训练集转移至已标注集，避免干扰其它未标注样本所属类别的确定。2.针对在线商品评价这类情感特征倾向明显的Web文本分类问题，提出了基于特征分布半监督分类算法。通过利用特征项的类别分布情况来弥补信息增益方法的不足，修正原信息增益方法的特征项和类别的联合分布概率，放大特征项在不同类别间出现的差异，调整后的信息增益方法保留真正具有较高类别区分能力的特征，达到有效降低特征空间维度的目的。再将基于特征分布的选择方法与增强EM算法相结合进行半监督文本分类，取得了较好的分类效果和性能。3.为解决传统Web文本聚类方法精度和效率不理想的状况，提出了基于强类别特征近邻传播的半监督聚类算法。在高效、快速的近邻消息传播算法的基础上吸收半监督聚类的思想，充分利用少量已知类别标签数据中潜在的先验信息，提取强类别区分能力的特征项对训练样本的夹角余弦相似性矩阵进行调整，构建综合强类别特征和夹角余弦的相似性测度函数，在算法每轮迭代完成后进一步将类别确定性程度最高的未标记样本转移到已标注集，这些措施使得算法性能和精度都得到较大提升。4.为提高少量带类别标签样本数据的利用效果，提出了一种融合种子扩散近邻传播的半监督聚类算法。在聚类初始阶段把少量有限的带类别标签样本作为初始种子，然后通过扩散增大规模，进一步净化、提纯后移除误标记和噪音数据，逐步将初始种子培育成规模更大的优良种子集，以改善聚类初始化效果，同时利用seeds集样本中蕴含的类别结构信息构建更合理的相似性测度，促使算法快速向正确聚类目标收敛，为处理大规模非对称性以及高维稀疏的Web文本分析问题提供了有效的解决方案。5.为了改善Web搜索结果的组织和发布效果，方便信息查找浏览，提出了基于潜在语义信息和后缀树的Web检索结果聚类算法。该算法首先结合向量空间模型和后缀树模型的优点进行Web页面摘要片断的聚类过程，将拥有较多相同短语的页面文档组成一个基簇，再借助潜在语义索引方法提取特征词条和文档之间蕴含的潜在语义关联信息，为页面基簇挑选与主题贴切的候选短语作为文档基簇的目录标签，聚类结果使得Web检索结果方便浏览且能协助用户快速地找到他们感兴趣的Web页面或站点信息。

其他文献

厦门公交行业发展策略研究

厦门大力倡导公交优先理念,政府加大对公交行业发展的支持力度,厦门公交行业抓住这一战略机遇,坚持科学发展道路,制定适宜发展策略,促进公交行业发展取得了显著成效。

期刊

公交行业策略高架BRT企业品牌厦门

北京城市绿色空间时空变化及其生态服务功能响应

在世界范围内,城市化已经成为人类社会发展不可逆转的趋势,城市化在推动人类经济、社会、文化、教育、科技快速发展的同时,也在区域和全球尺度上造成了资源短缺、环境污染、

学位

绿色空间时空演变信息提取景观格局城市热岛生态服务功能

高校翻译教学与学生语用能力培养探究

高校翻译教学的目的是通过教师的指导教学使得高校学生的语用能力得到进一步提升,本文将着重从语言能力和社交语用能力这两方面进行探讨,并具体分析如何在高校翻译教学中培养

期刊

高校翻译语言能力社交语用能力

民国时期广州城市规划建设研究

民国时期，正是西方近现代城市规划思想和理论传入中国，并与中国传统城市规划体系发生剧烈冲突和碰撞的时期，以广州这一在中国城市发展历史上具有重要地位和独特风格的城市在民国

学位

民国广州城市规划建设理论与实践

浅谈石油石化行业发展之现状

当前世界石油石化工业仍呈现继续增长态势:全球石油产量保持稳定,石化产品需求平稳增加,主要石化公司盈利普遍增长;世界石化生产基地明显东移;主要替代能源在石化领域的开发

期刊

世界中国石油工业石化工业

EPC模式下火电厂节能改造项目风险研究

火电厂是一次能源消耗大户,耗煤量巨大,节能减排任务艰巨。在煤电矛盾日益突出,火电企业盈利能力不强的背景下,中电联科技中心提出将合同能源管理(Energy Performance Contra

学位

合同能源管理模式火电厂风险蒙特卡罗模拟CIM模型

太阳能光伏微型逆变器的研究与实现

在能源日趋紧张的局势下,太阳能作为一种清洁、无污染的绿色能源越来越受到人们的重视。光伏发电作为太阳能利用的主要形式,得到了较大的发展。光伏发电系统通常包括太阳能光

学位

光伏发电微型逆变器反激变换单相并网逆变器

融媒体时代党报如何吸引“00后”受众——以闽南日报社创新未成年人新闻报道为例

<正>未成年人关系国家和民族的未来。习近平总书记指出:为了中华民族的今天和明天,我们要教育引导广大少年儿童树立远大志向、培育美好心灵,让少年儿童成长得更好。近年来,闽

期刊

闽南日报未成年人媒体时代

互联网广告投资项目群的综合评价研究

由于互联网近年来的技术成熟和逐步推广,以互联网为载体的互联网广告得到了迅猛发展,互联网广告以其区别于传统媒体的独特优势不断扩大自身在广告行业的市场份额,越来越多的

学位

互联网广告投资项目组合权重综合评价BP神经网络

港口群腹地出口集装箱生成量影响因素及模型研究

伴随外向型经济的崛起，中国沿海地区形成了全球最活跃的、以共享腹地为特征的港口群国际物流系统。集装箱运输作为一种新的运输方式的出现，对整个运输业及区域外贸发展产生了深

学位

港口群腹地集装箱生成量面板数据

面向信息检索的Web文本挖掘方法研究

其他学术论文