文本分割与主题识别研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:claverchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息检索一般以整篇文档为基本处理单位,隐性假设一篇文档主要讨论一个主题。而当人们的检索需求从最初的检索信息源头,发展到希望能够直接获得相关知识或答案,这样的检索粒度已不能满足人们的期望。为了提高检索效果,研究人员考虑使用文本分割技术,自动识别和划分文本的子主题结构,将语义段落作为文本处理单位,从而提供更好的检索结果。 本文介绍了文本分割技术的背景、含义、发展和国内外研究现状,对当前文本分割领域的典型方法进行了分析与比较,并对文本分割技术的几种评价指标进行了总结。在此基础上,本文基于文本分割经典算法TeXtTiling,借鉴相关研究成果,引入词汇语义知识,使用知网(Hownet)作为知识词典,提出TextTiling改进算法,试图提高分割算法中相似度计算模块的效果。 为验证改进算法的效果,本文构造了一个含有不同类型文本的试验语料库,对目前几种典型的文本分割算法以及TeXtTiling改进算法的试验结果进行比较分析,结合试验结果,对算法进行了进一步讨论,提出了算法存在的不足与改进措施。 同时,本文也对分割后的文本片断内容表征做进一步的探讨。尝试引入语汇信息,使用《同义词词林》词典,利用同义词/相关词与分割过程中析出的最大组合词簇形成主题
其他文献
太阳能是一种典型的可再生清洁型能源,在当前社会发展水平全面提升背景下,人们对资源、环境和社会可持续发展问题的关注程度不断提升,因此太阳能资源作为一种可再生资源也逐
新疆青少年运动员中长跑应以“短”促"长
《劳动合同法》颁布前后,有关劳务派遣的争论就没有停止过.不仅学者们对劳务派遣的规定多有讨论,社会各界乃至立法者也表达了观点.2012年12月28日,第十一届全国人民代表大会
The sediment content of the Yellow River is resulted from the interactions of natural, economic, and social factors, so it includes some evolutive information o
足球作为世界第一大球,在国际范围内具有较强的影响力.近年来,中国足球发展现状不容乐观,与国外足球强国之间的差距已经相当明显.为有效拉近这一差距,这需要我国探索出足球后
通过对部分国际摔跤队的观察来看,在具体的摔跤比赛中,抱提技术这则是最主要的得分项,也是判定是否能够获得胜利的重要因素.所以,抱提技术就成为了国际式摔跤中的重点,也成为
在创新驱动发展和促进区域协调发展的背景下,开展基于创新链的产业竞争力研究,具有重要的理论意义和现实意义。通过调研发现:首先,尚未有研究将创新链应用于产业竞争力分析研究
随着信息技术及网络技术的飞速发展,已有众多的数据集发布在网上。但针对真实世界存在的众多实体对象,已发布的数据集中包含有众多代表相同资源的类似数据,如果这些数据集中
本论文运用文献资料法、数据统计法对里约奥运会决赛中的中国与塞尔维亚队进行非技术因素的比较,得出中国女排在身高和扣球高度、拦网高度具有优势,但是年龄较轻,心理素质还
在当代体育竞技中,游泳项目成绩的好坏与游泳运动员的力量素质是密切相关的.而力量素质当然要通过一定的专项训练才能得到提高.作为我国游泳项目后备人才的青少年,其力量训练