【摘 要】
:
随着信息技术的不断发展,网页分类已经成为目前研究的一个热点。网页分类,即根据一定的分类规则实现大量Web文本的自动归类。它能够对网页进行有序组织,改善信息检索的性能,
论文部分内容阅读
随着信息技术的不断发展,网页分类已经成为目前研究的一个热点。网页分类,即根据一定的分类规则实现大量Web文本的自动归类。它能够对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特征提取是网页分类过程中的一个重要步骤,也是网页实现高效分类的前提,提取算法的优劣将直接影响到分类器的性能。介绍了网页自动分类的原理、过程和发展,详细阐述了分类流程的各个步骤,并分析、比较了几种常见的分类算法。在网页分类过程中,详细研究了特征提取方法,阐述了特征提取的意义和工作原理。在介绍常用的特征提取算法基础上,系统分析了互信息(MI)和?2统计量(CHI)算法,发现MI算法忽略负值特征、过分倾向低频词,而CHI算法无法过滤无用高频词、对特有低频词又不重视。此外,二者均未考虑特征词在类别中的出现概率对分类的影响。针对以上不足,对MI和CHI算法做了相应改进。在特征提取对象上,分析了可提取的对象范围,重点考虑了标题、正文、超链接、超文本标记等信息,并根据特征出现的不同位置,赋予不同权重,从而提出了位置加权法。同时在预处理上考虑到停用词表的不完备性和计算复杂度,直接使用正则表达式提取对文本类别最具代表性的名词和动词作为初始特征,实现向量空间的初步降维。为了验证改进的特征提取方法,将其应用到具体的中文网页分类系统中,实验结果表明,改进的特征提取方法不仅提高了分类质量,还提升了分类效率,有效减少了计算开销。
其他文献
企业是社会财富的创造者,但其在经营过程中必然要利用社会资源,因而企业不应再将利润作为唯一目标,而应该更多地考虑如何积极地承担起社会责任。企业在谋求经济利益的同时,自
随着花样游泳竞技化程度的不断提高,力量素质在花样游泳中占据愈发重要的地位。我国花样游泳近年来竞技水平取得了突飞猛进的提高,然而与世界强队俄罗斯、西班牙相比还存在差
相对于传统污泥厌氧消化系统,高固体污泥厌氧消化具有设施体积小、单位容积产气率高和能耗低等优势.结合近年来高固体厌氧消化的研究进展,从其基本特征出发,特别是污泥的流变
翻译等值问题一直是翻译理论的核心问题.但是,各家对翻译对等概念本身的界定以及对其在翻译理论与实践中的价值和作用的认定却不尽一致,有的甚至相去甚远,由此引发的争论似乎
全世界结核病的发病均有升高,人类免疫缺陷病毒(HIV)传播是主要原因之一[1].HIV感染使成人的结核和非结核分支杆菌感染逐渐增加,也成为心包疾病的重要致病因素.国外统计肺结
随着社会的发展和科技的进步,当前电力系统改革已经全面展开,多供电、供好电、持续供电已经成为电力系统服务于社会的必然条件。为了适应电力发展的需要,需装设各种自动装置,
通过注水井向油层注水补充能量,保持油层压力是油田为了提高采油率和采油速度而广泛采用的一种方法。但现有油田注水方式普遍存在效率低,能源消耗大等问题。而且,我国现有油
为了开发新型生物质能源,研究了用甜高粱茎秆生产燃料乙醇的工艺参数,在单因素试验的基础上用正交试验进行工艺参数的优化。结果表明,发酵温度、pH值、酵母营养盐对甜高粱秆
搭售作为一种企业滥用市场支配地位的行为,对它的规制成为竞争法上的一个重要议题。普遍认为搭售会产生提高进入障碍、排除其他竞争者等破坏市场竞争秩序的后果,同时还会损害
会展经济是以会议和展览为中心的一种新型经济,是一种聚集效应和辐射效应都很强的综合经济。它是市场经济发展到一定阶段的产物,是适应市场经济对信息交流的内在要求而产生和