【摘 要】
:
在公安业务的实际需求中,往往需要对网络上的文本信息进行筛选,也就是进行文本分类。在文本分类任务中,分类效果的好坏依赖于训练样本的数量和质量,要想获得一个有效的分类器,往往需要耗费大量的人力来对文本进行标记,同时,在很多情况下,我们所需要进行分类的文本往往是针对某一特定事件或人物的,这样的文本所占比例较低,往往很难收集到足够的训练样本。要想解决以上问题,就需要一个可以自动化增量学习的分类器。一般而言
论文部分内容阅读
在公安业务的实际需求中,往往需要对网络上的文本信息进行筛选,也就是进行文本分类。在文本分类任务中,分类效果的好坏依赖于训练样本的数量和质量,要想获得一个有效的分类器,往往需要耗费大量的人力来对文本进行标记,同时,在很多情况下,我们所需要进行分类的文本往往是针对某一特定事件或人物的,这样的文本所占比例较低,往往很难收集到足够的训练样本。要想解决以上问题,就需要一个可以自动化增量学习的分类器。一般而言,分类器的实现有传统机器学习方法和神经网络方法。传统机器学习方法往往是基于统计学上的词语共现频率进行分类,该方法对样本数量依赖小,可以实现文本的简单分类;神经网络方法则是在语义理解的基础上进行分类,该方法对样本数量依赖大,但可以实现复杂的文本分类。针对这两种方法,本文设计了一个支持自动化增量学习的分类器系统,该系统采取了一定的策略,充分发挥了这两种方法的优势,在该系统中,首先使用少量的标记样本对多种分类器进行训练,在使用分类器进行文本分类的过程中,基于一定的规则,使用传统机器学习方法对分类结果进行筛选,生成带有一定噪声的标记样本,对分类器进行再训练,以此实现自动化增量学习的过程。经过实验证明,在新闻文本上进行若干次的增量训练后,分类器的准确度较之前提高5%-10%左右。
其他文献
随着经济的发展,连云港市吸引了越来越多的外商直接投资,FDI的增加促进了连云港市经济的发展,连云港市的FDI与GDP呈现了相互作用的关系,但连云港市在利用FDI的过程中也存在着
以巨峰葡萄、蓝莓和冬枣果实作为对照,对比分析黑果腺肋花楸果实的营养价值.对4种果实的可滴定酸、可溶性糖、可溶性蛋白、维生素C、黄酮和花青素含量进行测定分析.结果表明:
为了降低日光温室金手指葡萄裂果率和提高果品质量,调查研究了不同土壤类型、果实发育时期、灌水量、追肥量和赤霉酸处理次数对裂果率和裂果指数的影响。结果表明:沙壤地建园
股利分配政策作为财务管理的重点之一,多年来得到了成熟的发展与良好的创新。虽然每个公司的股利分配政策并没有统一的规范标准,但是股利政策仍然广受人们关注,其背后传递的信息更是受到投资者的欢迎。一些市场乱象也因此油然而生。公司“高送转”行为就是其中的一场年度压轴戏。近年来,A股市场上“高送转”风气盛行,尤其是作为成长阶段的创业板公司,更是屡次创下送转股的新高。一般来说,企业发布“高送转”预案,有诸多动因
目的探讨阑尾炎的早期诊断和正确治疗方法。方法对200例阑尾炎采用了捶击右足眼及呼吸运动疼痛征等作诊断依据,并对特殊情况的38例严重的、不同情况的阑尾炎做了不同的手术。
试验将1年生实生核桃苗分为0.5~0.8 cm、0.8~1.0 cm、>1.0 cm 3个径级进行移栽,通过移栽苗的成活率、苗高、地径生长,来研究径级与其生长的关系。结果表明:1)径级对移栽苗成
世界范围居高不下的肝炎发病率使其逐渐成为威胁人类健康的共性问题之一。诸多研究表明,免疫介导的损伤机制在各类肝炎(病毒性、自身免疫性、代谢紊乱性、脂肪肝、原发性胆汁
脑卒中后继发癫痫是脑血管病的常见并发症,为探讨老年人脑卒中与继发性癫痫的关系,现将我院1996-01~2001-12 收治经CT/MRI证实的老年脑卒中住院患者3680例,其中216例继发癫痫