中文网页获取及自动分类技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:tienan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,INTERNET上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于INTERNET所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域一个十分重要的研究课题。传统的处理方式是依靠人工的方法对网页进行分类,即专业人员在浏览网页后,根据其内容将它划分到一个或多个类别中。然而,网页信息在不断地快速增长,仍然依靠人工的方式对大量的网页进行分类,将是不合适,也是难以实现的。为了使用户更容易更准确地定位所需要的信息,众多的学者开始研究网页自动分类技术。本文对中文网页获取和网页分类技术进行了研究,具体内容如下:1、给出了一种网页获取方法。此方法在Java应用程序中集成Google Web API实现网页的搜索和获取,同时构造正则表达式来实现在已获取的网页中匹配出更多的URL。2、详细论述了对中文网页进行自动分类的主要技术问题。论述了网页预处理过程,包括网页的清洗和中文自动分词技术。分析比较了各种分词技术,并介绍了中文分词系统ICTCLAS。3、分析和比较了三种中文文本表示模型和多种特征选取算法,采用了向量空间模型和特征词表示方法,并针对不同词性的词在文本中的作用以及降低特征向量维数的需要,提出了基于词性的特征提取算法,此方法在进行特征值权重之前就剔除认为是噪音的信息,从而在很大程度上提高了特征词权重的效率。4、分析比较了多种文本分类算法,详细介绍了KNN分类算法,并针对KNN算法效率较低的缺陷,提出了相应的改进方法,通过对文本的特征向量进行重构改进KNN算法实现了分类器。5、对本论文所构建的分类器进行了评估。实验结果数据表明,改进的KNN算法在基本不损失准确率的基础上召回率和分类效率都有明显提高。
其他文献
时间序列是指按时间顺序排列的、随时间变化且相互关联的数据序列,在各个领域都广泛存在。异常检测在不同的研究领域和应用领域一直都是一个重要问题。所以随着互联网的发展
借鉴生物免疫系统的免疫原理解决网络安全问题已引起计算机安全研究人员的高度重视,尤其是基于人工免疫的异常检测方面已成为一个热门的研究方向。本文在研究人工免疫基本理
随着互联网的快速发展,网络情感文本的日益增多,其所包含的有价值情感信息也越来越重要,让人不可忽视。而情感分类作为一种能够自动判别文本情感方向的技术,已经被广泛的应用
动力配煤就是将不同性质(如发热量、灰分、硫分等)和价格的煤相互掺混,从而使混煤的特性适合电站锅炉的运行。动力配煤技术是一种减少污染排放、降低燃料成本的有效方法,因此能在
信息隐藏与隐秘信息检测的研究已成为全球互联网时代信息战的一项重要内容。信息隐藏技术虽然能使隐蔽通信更加安全,但信息隐藏技术的非法滥用对国家的安全、社会的稳定造成了
随着计算机技术和网络应用的迅猛发展,人们的日常生活与工作越来越趋于数字化和网络化。大量私有数据在网络上的传播、网络交易日益风行,使传统的版权保护手段和数据安全技术
计算机支持的协同工作(Computer Supported Cooperative Work, CSCW)是在计算机支持的环境下,为一个群体协作完成一项共同任务提供支持。因此,群体之间的通信、合作、协调是C
在目前的文件下载技术中, P2P技术是最重要的一种。 随着P2P技术的广泛应用,也出现了一个问题,采用不同协议的P2P应用系统各自形成了封闭的数据交换网络,因而限制了数据共享的
在激烈的市场竞争环境下,如何提高客户的满意程度,并获得客户的信赖,是现代企业最为关注的问题。随着计算机电话集成技术以及通信、网络、多媒体和分布式计算技术的发展,呼叫
语义Web对于现有互联网是一个有力的补充和主要的发展方向。在语义Web的体系结构中,本体是重要的组成部分。正是有了本体概念,语义Web才能具有语义推理等功能。本体构建是本