【摘 要】
:
关键短语抽取是文本信息处理的重要技术。随着网络时代的到来,在线文档呈现出几何级数的增长,“信息爆炸”成为这个时代的主要特征。检索和利用网络信息变得越来越困难,关键
论文部分内容阅读
关键短语抽取是文本信息处理的重要技术。随着网络时代的到来,在线文档呈现出几何级数的增长,“信息爆炸”成为这个时代的主要特征。检索和利用网络信息变得越来越困难,关键词作为对文章内容的简要概括,可以辅助人们快速了解文章内容,节省浏览时间。同时关键词在自动文摘、信息检索、文本分类、文本聚类等方面也具有十分重要的作用。在实际生活当中,只有很少的一部分文档拥有作者标注的关键词,并且由人手工进行关键词的标注是一项非常费时费力的工作且主观性较强。因此非常需要有一种方法,能够自动的进行关键词的抽取。关键词既要反映文本的主题内容,又要具有专指性。由于作者给定的关键词大多是由两个或者两个以上的词组成,因此本文也称为关键短语。关键短语的抽取已经成为信息检索领域中非常重要的研究课题。本文主要研究了以下几个问题:1.研究了与关键短语相关的资源建设问题,我们对格式化数据处理的方式进行了分类,并通过对互联网数据进行格式化处理来使人们了解如何进行资源建设。2.本文利用文档结构,分析和研究了关键短语抽取问题。本文采用分类的设计思想实现关键短语的抽取,并且分别采用支持向量机模型(SVM)来建立分类模型以及采用条件随机场模型(CRF)进行关键短语抽取。实验结果表明,本文提出的抽取算法在查准率和查全率上都比已有的算法有显著的提高。3.研究了软件测试问题,针对关键短语抽取完成了有关实验测试,我们对软件测试的方法进行了归纳、分类。通过使用Junit软件进行软件测试实验,我们分为五个部分对实验进行测试并总结出各个部分应注意和考虑的因素。
其他文献
在多核单机系统上,多个共享资源的线程或进程间的交错执行是不确定的,导致并行软件难以开发、调试,存在安全隐患。为保证线程或进程交错执行的确定性,课题组已提出确定性生产
车牌识别技术在智能交通系统中占有非常重要的地位,车牌识别系统主要包括车牌定位、字符分割和字符识别三大部分。其中,车牌定位和分割的结果对后续的识别起决定性作用,所以
对于领域性的信息检索系统来说,准确率的要求往往是其最为关心的,因为目前通用的信息检索系统对于具有高度领域性的信息来说并不能展现出良好的效果,甚至远远达不到可用的程
随着因特网的发展,网络信息量正突飞猛进地增长,人们越来越依赖搜索引擎来准确地获取所需的信息。搜索引擎在为网民提供便捷的搜索服务的同时,也影响着网站的发展前景,所以搜
生物医学文本挖掘的目的是借助文本挖掘技术帮助生物医学研究者从海量文献中更有效地找到所需信息、发现隐藏的生物医学知识。通过对孟德尔人类遗传在线(Online Mendelian In
近年来,随着手机用户的不断增长,短信已经在人们的日常生活中发展成为一种非常重要的交流方式,同时,由于短信的高效,低成本和无时空限制等优势受到了越来越多企业的重视。然而,目前
目前,随着网络技术的发展和各种网络应用的普及,与传统的静态HTML页面相比,蕴含数据更加丰富,质量更高的网络数据库正引起研究人员的广泛关注。然而,在特定的应用领域,由于不
在企业管理软件中,业务构件可以通过参数化和配置技术被复用以适应业务需求的变化,这种构件粒度大、可变参数多、结构复杂,难以开发。业务构件是所要处理的业务对象(如业务单
现阶段搭载多核处理器的网络服务器平台越来越普及。而操作系统是在单核处理器时代开发,无法充分发挥多核处理器的强大处理能力,所以对串行协议栈进行并行优化具有重要意义。
基于视频信息的说话者检测,就是不借助音频信息,单从说话者的嘴唇动作来判定谁在说话的检测方法。涉及到的相关技术有视频镜头分割、人脸检测与跟踪、嘴唇区域定位以及唇动判