【摘 要】
:
自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利
论文部分内容阅读
自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利用自动文摘技术,人们可以减少查找可用信息的时间。基于统计的文章主题划分的阈值可以通过大量的实验观察确定,但这种方法确定的阈值缺乏一定的适应性,提出一种基于阈值自动确定的主题分析方法,并与经验确定阈值的方法进行对比,表明此方法是可行的,可以满足自动文摘的要求并弥补了经验确定阈值方法的不足。因自动文摘过程是从一组主题相关的文档中发现潜在的知识,文本聚类技术得到了广泛的重视。线性时间复杂度的K-means文本聚类算法的中心点难以确定,提出一种文本聚类中心点选择方法,试验结果表明此方法可以发现一组聚类文档的中心点,并提高了聚类效果。对于多文档自动文摘,可以对同一个主题的多个文档划分局部主题之后,从局部主题中提取信息形成文摘,提高文摘的覆盖度。提出一种基于单文档主题划分为基础的多文档文摘主题分析方法,并对四种方法进行了对比。分析形成的局部主题后,对各个局部主题依据一定的技术进行提取,形成多文档文摘,最后对基于单文档主题划分和基于句子聚类的多文档自动文摘进行了对比分析,并给出了对比结果。
其他文献
Internet已经成为人们获取资源和信息交流的主要场所。然而,在信息量浩如烟海的Internet上寻找所需的信息,仍然是一项极富挑战性的工作。随着传统搜索引擎的发展,一方面其实用性
随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘是为了满足人们对数据中所蕴
Web搜索引擎是Intemet信息检索的主要工具,用户通过输入查询词来获取Web搜索结果,在Internet资源中检索得到自己所需的信息。然而,Internet上与用户查询词相关的信息十分丰富
目前,中间件已成为许多企业应用信息系统实施中通用且广泛的解决方案,特别是在Internet成为主流软件运行环境和面向服务架构(SOA)浪潮的推动下,网络的开放性和动态性使得客户
近年来,在嵌入式和网络通信等技术飞速发展的推动下,无线传感器网络不再满足于简单的标量数据采集,开始逐步转向复杂的多媒体数据的获取。视频传感器网络作为无线传感器网络的最
随着通讯技术、互联网的发展,人们对网络应用程序的开发提出了更高的要求。随着用户数目的大量增加,传统的由单个服务器来提供服务的应用模式已经越来越无法满足快速增长的并
针对目前碰撞检测算法普遍存在的准确性和实时性的矛盾,本文提出一种基于特征点的碰撞检测算法,以三维实体的特征点作为碰撞检测的计算依据,应用轴向包围盒AABB作为碰撞检测
选播是一种新型的网络服务模型,它能够使用户通过一个选播地址访问到该地址所标示的一组服务器中对用户来说“最近的”一个。选播服务的应用能够增强网络服务的可用性、提高
语音识别是一种最为理想的人机通信方式,随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业。语音识别既是理论问题,也是一个工程化问题。它综合多学
摘要分布式存储系统的应用已经越来越广泛。在存储系统中,可靠性是关键问题之一,保障数据的可用性必须要求存储系统提供多种方式来实现高可靠性。中文农业搜索引擎CFSEA是东