基于Google Web API的中文训练库自动获取方法研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:woainami
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着网络技术的翻天覆地的发展变化,互联网上的信息资源日益丰富,已经成为人们在日常生活、学习和工作中快速获取信息的重要途径。因此,如何有效地处理网上信息,成为信息处理领域一个很重要的研究课题,有效的方法是对网页进行自动分类处理,然而,大部分的研究者都是在自己建立的训练库上做测试得出结论。分类算法的分类性能和训练库之间相关,高质量的训练库会使分类器得到比较好的分类性能。在本文中,主要研究训练库自动获取的方法。虽然对训练库的研究很少,但是有几个方面的原因说明它是值得研究。首先,如果训练库的建立过程能够自动实现,特别是训练样本能够自动获取,将提高训练库建立的速度,将减轻人们的工作量,加快分类的速度。其次,对于普通用户也能迅速建立起自己所需要的训练库,将减少人们在整个分类过程中手工参与的程度。最后,将建立的训练库和分类效果比较好的分类算法结合在一起,能提高分类的准确率,同时也能对训练库进一步的改进和提高。对于训练库的自动获取,本文主要做了以下几个方面的工作:(1)针对传统的手工获取训练网页,本文提出了基于Google Web API的方法来收集网页作为训练样本,快速获取网页,减少人们的工作量。(2)改造了传统的训练库结构,传统训练库中的类是并列的,改进为具有类层次结构的,并且尽量把训练库中所有的类都具有层次结构,即对于每个父类,都有一个或者几个子类,利用父类及其子类的类名作为查询关键词,利用Google Web API来收集网络资源,并把它们作为训练样本来训练所有的层次上的类。(3)通过分析,我们可以利用类的相关词组一步用来收集更多训练样本。反复的应用提出的方法能获得高质量的训练样本,进而提高分类器的性能,经过经验,用这种方法建立的训练库能提高分类的准确率。总之,本文的主要内容就是关于训练库自动获取,最后指出了研究中的不足之处,并对今后的研究工作做了进一步的展望。
其他文献
基于闪存的固态硬盘(SSD)作为一种新兴技术吸引了学术界和产业界的强烈兴趣。SSD已被广泛使用到笔记本电脑、台式机以及企业级服务器领域,渗透到市场的方方面面。SSD的一个独
无线传感器网络(Wireless Sensor Network,WSN)是由大量存储、能量、计算以及通信能力受限的传感器节点组成的网络。节点与节点之间相互协作周期性地获取感测数据、处理数据
多媒体技术和互联网技术的发展,使人们能够方便的获得各种多媒体信息。多媒体信息具有易于存储、发布以及二次创作等诸多优点,但同时也产生了非法拷贝、传播和恶意篡改等问题。
近年来,随着无线通信技术快速发展以及Ad Hoc网络技术的应用范围不断拓展,针对Ad Hoc网络路由的研究也日益成熟,AODV路由协议由此孕育而生,然而AODV设计之初并未充分考虑诸多
随着科学技术的飞速发展,人们进入了数字信息化时代,同时,电子信息急剧膨胀。在这个时代,信息就是财富,信息决定成败。只有及时获取准确、有效的信息,才能跟上时代的步伐。因此,对于
H.264是新一代运动图像压缩标准。H.264视频标准(又称为14496-10或MPEG-4 Part10)的制定是由ISO/IEC下属的运动图像专家组MPEG(Moving Picture Experts Group)和ITU下属的视
知识表示是人工智能的基础,知识表示方法越合理有效,就越能更好地支持人工智能的各种应用。因此,知识表示一直是人工智能领域的研究热点。世界由各种对象构成,面向对象的思想
对于普适计算环境下的中间件技术,国内外已进行了长时间的研究。早期,对中间件的研究主要集中在自适应、人机交互、上下文感知、安全性等方面,而很少考虑环境的异构性、资源
竞争的日趋激烈,要求企业能够对不断变化的市场做出快速响应,应用系统被要求快速搭建、实施以及跨企业协同需求日益普及;同时不同时期、不同类型、跨企业边界的异构系统需要集成
入侵检测系统(Intrusion Detection System,简称IDS),作为一种积极主动的安全防护工具,提供了对内部攻击和外部攻击的实时防护,在计算机网络遭受破坏之前进行报警、拦截和响应。