Web文本分类的研究与应用

来源 :北京科技大学 | 被引量 : 0次 | 上传用户：zx0755

【摘要】

：

随着Internet的飞速发展，Web文本信息迅速膨胀，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个急需解决的问题。Web文

【作者】

：

谢益平

【机构】

：

北京科技大学

【出处】

：

北京科技大学

【发表日期】

：

2009年期

【关键词】

：

web文本挖掘文本分类自动分词朴素贝叶斯算法特征项选取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的飞速发展，Web文本信息迅速膨胀，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个急需解决的问题。Web文本分类作为Web文本挖掘中的重要技术，可以在较大程度上解决信息杂乱和“信息爆炸”的问题，有着广泛的应用前景。　　本文介绍了Web文本挖掘和Web文本分类的研究现状，指出Web中文文本分类领域需要进一步研究和解决的问题，对基于Web的中文文本分类技术进行了深入的学习和研究。本文主要研究内容如下：　　对Web中文文本分类过程中的关键技术：文本自动分词、文本表示、特征项的选取，特征项的权重计算等进行详细地分析和讨论，指出现有权重计算方法的不足以及常用特征选择方法的优缺点。　　介绍常用的分类方法，深入研究了统计学习理论基础上的朴素贝叶斯分类算法，分析了朴素贝叶斯算法用于Web文本分类的优势及不足。贝叶斯算法所需估计的参数很少，对缺失数据不太敏感，有着稳定的分类效率。贝叶斯的缺点在于，算法假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给算法的正确分类带来了一定影响。在属性相关性较小的情况下，贝叶斯算法的性能最为良好。　　在相关理论的研究基础上，设计了基于Web文本分类的自动推荐系统。系统通过已有历史浏览记录中页面的分类，寻找用户兴趣，从而推荐用户感兴趣的内容，实现智能化和个性化的服务。

其他文献

3-RPC并联机构的动力学性能指标分析与仿真

本课题针对两个少自由度并联机构进行了运动学性能和动力学性能方面的实例分析,这两个机构分别为:平面三自由度并联对称机构3RPC;具有四角平台的3-RPC机构。在具体研究每一个

学位

并联机构少自由度虚设机构法影响系数动力学性能

基于MapObjects的城市公交线网数据管理与分析

随着城市的迅猛发展，城市公交问题已备受各国政府关注。以美国、日本为代表的各发达国家已经逐渐从主要依靠扩大路网规模来解决日益增长的交通需求，转移到广泛利用信息技术来建

学位

公交线网数据资源地理信息系统交通管理信息技术

基于混沌的动态图软件水印算法研究

随着计算机技术和因特网的迅猛发展,软件的盗版与破解却日益严重,因此如何有效解决软件产品的版权保护、防止盗版,已成为软件安全急需解决的问题。目前的软件版权保护技术主

学位

软件水印动态图水印中国剩余定理混沌理论

数字视频语义概念检测技术研究

多年来，数字视频相关技术取得了飞速的进步，有力地推动着广电、通信和互联网行业中交互点播、视频搜索等相关应用的发展。为了有效管理和利用海量的数字视频资源，需要对视频内容

学位

视频语义概念特征选择局部分类器上下文关联映射数字视频

支持演化的“软件人”体系结构描述语言研究

当前，“软件人”研究工作正逐渐深入，基于“软件人”的各种应用也验证了“软件人”理论、技术、方法的可行性和有效性。“软件人”系统具有递阶、分层、松散耦合的分布式架构。

学位

软件人动态演化体系结构描述语言

多媒体实时互动抢答系统的应用研究

在澳门，情境式教学是目前中小学教育中的一种重要的教学模式，老师在讲课时利用各种媒体创设情境，引领学生从体验中更好地理解内容，提高学生的学习动机，在组织和创设情境的过程中，不

学位

中小学教育情境教学多媒体教学实时抢答系统

基于深度图像信息的视觉目标自遮挡检测方法研究

在目标识别、立体匹配、视觉跟踪、场景重建、自动检测等诸多视觉研究领域,自遮挡现象已成为影响各种任务执行效果的主要因素之一。如何准确、合理地对自遮挡现象进行检测是

学位

计算机视觉深度图像自遮挡检测平均曲率阈值分割

PKUnity-3(SK)系统芯片二维图形加速器的功能验证与性能评测

计算机图形技术应用日臻广泛，图形处理也越来越复杂，采用专用的图形处理硬件来代替中央处理器进行图形处理已经成为实现高性能图形处理的主要途径。如何高效地对图形处理硬件单

学位

协同验证性能评测图形处理器系统芯片

基于本体的语义检索研究与实现

随着互联网的广泛使用，网络上的信息呈几何级增长，如何有效地搜索信息资源是用户密切关注的问题。传统基于关键词的检索只能从字面上匹配，而没有充分利用信息资源之间的语义关系

学位

本体计算机课程语义检索资源检索系统

基于汉语框架网的中文问句分类研究

计算机和网络的出现方便了人们对信息的获取,随着互联网的飞速发展和计算机的迅猛更新,如何从互联网上更快地获取到更准确的有用信息成了人们的关注热点。现有的搜索引擎返回

学位

汉语框架网问句分类最大熵问答系统

Web文本分类的研究与应用

与本文相关的学术论文