基于Web挖掘技术的网页分类研究

被引量 : 0次 | 上传用户:gm_686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机硬件存储能力和软件环境的不断提高,万维网(World Wide Web)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。近年来Web2.0的话题都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如:维基(Wikis),博客(Blogs),和社会资源共享系统。社会化标签服务,如Del.icio.us和Flickr,不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。本文主要做了以下几方面工作。1.用户娱乐意挖掘。理解用用户在线活动的目标和意向为信息提供者带来很大帮助。本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。实验结果表明,出现频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。2.社会化书签的特点及表示。标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。3.基于社会化标签网页分类。在社会化标签环境下,通常用户根据同一类的标签所标注的网页属于同一类。相应的,用户对同一类网页标注时,所用的标签是同一类的。因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。构建对网页局部文本、网页标签和虚拟文档进行分类的模型。通过实验证实了社会化书签对网页分类的作用,基于虚拟文档的分类算法取得了满意的效果。
其他文献
以我国北方某非正规垃圾填埋场为例,应用数值模拟方法,分别对不同的地下水污染控制技术效果进行了模拟预测。结果显示:针对研究区的水文地质结构特征及场区内垃圾特性,抽水为短期
【目的】草害是影响油菜产量主要因素之一,研究大田条件下直播油菜播种量和施氮量对油菜和杂草生物量的调控作用,揭示其氮素竞争规律,为提高直播油菜产量提供种植管理依据。
JavaScript传统上是单线程的,在HTML页面中执行一个需较长时间运行的脚本会阻塞所有的页面功能直至脚本完成。Web Worker是HTML5提供的JavaScript多线程解决方案。解析了Web
世界卫生组织(WHO)在其宪章中对健康作出如下定义:"健康不仅仅是没有疾病或不虚弱,而是身体的、精神的健康和社会适应良好的总称."由此可见,随着社会的进步,健康将日益受到人
采用中间镀锌工艺生产的Φ0.86 mm,2 070 MPa级小规格高强度制绳用镀锌钢丝,在镀后拉拔过程中经常脆断。通过试验对相关工艺参数进行探讨,控制镀前钢丝拉拔总压缩率在75%左右
将全球定位系统(GPS)和地理信息系统(GIS)结合在一起应用于轨道交通中,可以提高列车定位精度、减少轨旁设备、降低建设和维护成本,这已经成为列车运行控制系统的一个发展方向
根据钢丝的进出线直径计算出直进式拉丝机的总压缩率、部分压缩率,按工艺要求对部分压缩率进行调整,然后计算出各拉拔道次的钢丝直径,依据秒流量相等原则推导出各道次拉拔速
本文根据蒲心诚教授提出的比强度法和法国路桥实验室提出的CPM模型,提出了超高性能混凝土配制新思路;分析了矿物微粉配合比参数改变对其火山灰效应和堆积密实度的影响,重点进