【摘 要】
:
网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过
论文部分内容阅读
网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。本文研究了网页文本分类及其在搜索引擎应用,主要工作如下:1.网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法,网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网页分类各种技术进行整合,使其具有良好的框架和可扩展性。2.提出了一种基于集成学习与类指示器的文本分类方法,该方法利用AdaBoost.MH算法框架,在每一轮次中,自适应地计算类指示器,通过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力强。3.将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于AdaBoost.MR方法,通过利用其自适应维护权重分布的特点,用每轮的权重分布,修正传统中心法分类器偏差,突出被误分类的文档的影响,降低其误分类概率。4.开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的TGSOM进行词条聚合,并根据聚合特征的特点,提出了一种新的权重计算方法。5.将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主题模型,网页优先级计算,爬虫框架与系统调度等。设计实现了一个通用的主题爬虫子系统,应用文本分类技术,提出了一个基于AdaBoost集成学习方法的主题原型向量及阈值的计算方法,设计了主题敏感的链接分析方法用于优先级计算。6.设计与实现了一个主题搜索引擎原型系统,探讨了系统框架及文本分类在其中的应用。
其他文献
随着微电子集成技术和计算机技术的飞速发展,现代数字示波器作为一种精密电测仪器得到了更快的发展,不仅其功能越来越强、精度越来越高,而且外形越来越美观。但现有的数字示波器价格普遍偏高,使其应用受到一定限制。充分利用虚拟现实技术研究功能强大、性价比高的虚拟数字示波器,使之更好地满足实际应用的需求,具有很好的现实意义。多通道数字示波器,是在认真分析现有数字存储示波器工作原理的基础上,以PC机作为硬件基础,
SOA对现代软件开发模式产生了深远的影响,它通过服务的发布、发现以及绑定等机制为其他的应用程序提供服务。SOA具有松散耦合、粗粒度、互操作性等优点。通过采用SOA架构的设
近年来,足球视频的检索与摘要技术发展越来越迅速,作为足球视频检索与摘要关键技术之一的精彩镜头提取技术也引起了国内外诸多学者的关注。现有足球视频精彩镜头的提取方法主要
随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。因此,随之出现的信息检索系统------搜索引擎成为人们搜索信息的主要工具。虽然搜索引擎
对象存储系统是一种新的网络存储体系结构,它结合了存储区域网的高性能和网络附加存储的跨平台的优点。对象存储控制器是对象存储系统的关键部件之一。利用SOPC(System On Pr
本论文的研究工作主要是基于计算机符号计算技术,并结合微分方程、代数及算子等相关数学理论,跨学科地研究了现代科技中一些重要的非线性数学模型。这些模型的应用涉及到光孤子
在企业流程管理生命周期中,建立合理的管理模式是非常关键的,但单一的建模方式并不能完全满足企业的要求,这就需要一种以业务流程为主体,知识流为辅的方式来进行集成建模,使
文字知识库是文字书写自动教学系统的必备教学资源,目前单一文种知识库技术已相当成熟,当今社会更趋多元化,文化相互融合更加紧密,为适应此需求,文字书写自动教学系统应具有
随着因特网商业化革命和网络融合技术的不断发展,基于电路交换的公共交换电话网(PSTN)逐步被基于分组交换的下一代网络(NGN)替代。软交换作为NGN网络的核心单元,它整合了语音
随着我国信息化前进的步伐以及互联网技术的迅速发展,随着国家“信息化带动工业化,政府先行”大政方针的指定,电子政务成为近几年信息化研发的热点。而在开发的大量的电子政