基于非平衡数据分类的单文档自动文摘方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:dudu123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。
其他文献
一天,四年级的班主任曹老师跑到我办公室,紧张地说:“校长,不好了。小勇和张老师顶牛了,还掀翻了好多桌子。我拉不住他,怕出事!您快去看看……”  我立即跟着曹老师到了教室。其他学生都上体育课去了,教室里只有小勇和张老师,气氛比较紧张。只见十几张课桌椅四脚朝天,书本散落一地。小勇站在翻倒的课桌中间,双手握拳,两眼紧盯着离他老远、已经退到教室门口的张老师。张老师气得脸色铁青,见到我就说:“校长,我只是让
接通率是衡量GSM网络运行质量重要的指标之一,本文根据 GSM网络优化的基本理论,针对GSM网络中低接通率现象,对影响GSM网络优化中接通率的因素进行了细致的分析与研究,提出了一套
新课改倡导“以人为本,以学生的发展为宗旨,体现科学研究的作风、意志、责任感、创新及献身精神”。这就要求教师在课堂教学工作中结合学生实际,一切为了学生,全面调动学生学习的
随着无线通信技术的迅速发展,小型化、高性能已成为射频微波器件发展的必然趋势。LTCC技术凭借其自身具有的独特优势,很好的满足了当前的发展需求。微波器件的传统的人工测试
针对军用业务系统的高容灾需求,提出一种自适应多点容灾模型,实现了应用和数据的自适应多点容灾,能够容忍并发或连续多重军事打击。该模型扩充了常用的容灾目标,根据用户需求自动
为有效求解逆向物流车辆路径(VRPSPD)模型,本文提出一种基于种群多样性的自适应PSO算法(SDAPSO)。在SDAPSO运行时,根据种群多样性,自适应地对种群中运行较差的粒子进行扰动操作,
ZigBee是一种新兴的专为低速率无线个域网(WPAN)而设计的低成本、低功耗的短距离无线通信协议,能够广泛地应用于军事、工业、智能家居等。ZigBee路由协议是ZigBee网络的核心技术
DM9000是目前在嵌入式系统中广泛应用的以太网芯片。本文首先简要介绍μCLinux中网络驱动的基本框架,然后研究并实现μCLinux内核中DM9000驱动各个模块的功能,并根据实际需要进
午休时间,我批完了孩子们的作业,正准备休息一会儿时,看到一位家长发来求助留言:  邵老师,您好!有个问题想向您请教一下。都都在学校的表现您可能比我清楚,这学期开学不到两周,老师反映他上课爱做小动作,说话,注意力不集中。这些问题是我和他爸爸最头疼的,我们用了好多办法都没有效果,像这样的情况有什么好的办法改善呢?  每天早晨上学出门前和放学回来后,我们都不停地叮嘱他在学校要注意纪律。可是一到学校,他就