基于机器学习的中文文本自动分类的研究和应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:xiaoyaya310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,特别是因特网的快速发展,网上信息浩如烟海,互联网上的中文网页信息数以亿计。如何利用计算机技术快速有效的获取相关信息已是中文信息处理领域的一个研究热点。大部分网络搜索引擎主要是根据对信息的主观分析建立索引,从而在一定程度上减轻了人们寻找自己所需信息的工作量。就目前来说,搜索引擎对网络信息的整理,依然是半自动化半人工的方式。如何提高搜索引擎的信息搜索的智能化程度,提高搜索效率,降低人工二次搜索的工作量已成为当前智能搜索的研究热点。中文文本分类技术为此类问题提供了一个切实可行的解决途径。本文首先介绍文本自动分类的主要方法,分析中文WEB文本的特点和提出中文WEB文本自动分类的关键技术,实现了一种中文WEB文本自动分类工具的总体设计及各功能模块。基于机器学习的中文文本自动分类系统由三个主要功能模块组成:网络蜘蛛、WEB文本预处理和WEB文本自动分类器。首先讨论了网络蜘蛛的遍历策略及其中集成的SUN公司的HTML解析器、WEB文本预处理中的WEB文本过滤技术与中文文本分词方法及中文词典的存储结构,在此基础上分析了基于机器学习的特征选取方法和文本分类器中采用的贝叶斯文本分类算法及对该算法的改进。WEB文本自动分类系统无需用户显式地给出检索要求,通过学习用户感兴趣的样本文本自动建立用于WEB文本分类的特征词库,通过特征词条匹配自动实现WEB文本的分类,有效地提高了WEB信息检索的精度和速度。
其他文献
网络小说语言是伴随着网络而出现的一种新的语言现象,由于其产生的时间比较短,存在着一些不成熟和不完善的地方。本文在具体网络小说作品解读的基础上,总结归纳出网络小说语
均为80年代走进大陆的言情小说家,琼瑶一炮走红,由小说改编的电视剧更是掀起了大陆收视狂潮;而香港作家亦舒在当时却遭到冷落,90年代后期,亦舒小说的价值才渐被人们重视,当我
目的慢性牙周炎与冠心病皆是“严重危害人类健康的重大疾病”,大量文献报道,慢性牙周炎已成为心血管疾病独立的危险因素。慢性牙周炎作为一利独立的危险因素促心血管疾病发展的
一、问题的提出21世纪是人类依靠知识创新和可持续发展的世纪,世界进入了知识经济时代。面对知识经济的挑战和机遇,全面推进素质教育是当前我国现代化建设的一项紧迫任务,是
当今,中国经济的改革与发展进入了重要阶段,在诸多面临攻坚的问题当中,“三农”问题成为重中之重。2005年3月18日,在总理记者招待会上,面对中央电视台记者“本届政府所面临的主要
在田间试验条件下研究不同氮肥品种和底施追施比例对小白菜产量和营养品质的影响。结果表明,施氮极显著提高了小白菜的生物量和产量,亦增加了硝酸盐的累积量,其中尿素处理增
在当代,全球化引起的人们生存方式的变迁、多种文化的渗透等对当代大学生民族精神的形成带来了新的境遇.全球化使大学生民族精神培育的影响力和接受力受到限制,也使大学生民
随着超大规模集成技术的发展,芯片尺寸的日益缩小,铜作为连接材料的优越性日益显现。由于铜的反应生成物不具有挥发性,刻蚀很难实现。只有先在硅片上作好双大马士革结构,然后
本文通过构建一个三部门一般均衡模型研究贸易成本对生产者服务业和制造业空间集聚关系的影响。该模型刻画了生产者服务业规模报酬递增、作为制造业的中间投入品以及由于信息
<正> 据调查江西省现有矿泉96处,按1981年全国疗养专题学术会议提出的《医疗矿泉分类方案》标准,属医疗矿泉者有68处,占矿泉总数70.8%。如按每个矿泉单项离子成分划分,其中有
期刊