基于话题检测与跟踪的话题搜索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:changlang0p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,互联网已经成为一种新兴媒体,与传统的报纸、电视等信息传播媒介相比,网络上的信息传播时间短、突发性强、互动性好。尤其是互联网上发布的新闻信息更能体现这些特点。人们也逐渐开始习惯在网络上浏览新闻,关注自己感兴趣的话题或搜索诸如“最近都发生了什么大事”这样的信息。为了让人们更加快速的从网络上获取信息,需要对网络新闻信息的内容进行深入挖掘,实现对新闻报道信息流中话题的自动检测,并对已有话题进行跟踪,提供以话题为单位的信息搜索服务。本文在对话题检测与跟踪这一技术进行研究的基础上,将其应用到Web新闻领域,通过话题检测、话题跟踪技术对新闻报道信息的内容进行挖掘,将报道同一话题的新闻组织到一起,并使用信息检索领域的索引以及检索技术对抽取到的话题信息进行处理,最终提供一种话题搜索服务。本文首先介绍了话题检测与跟踪中的相关概念和文本聚类、文本分类等关键技术,并对搜索引擎涉及的关键技术进行了阐述;然后对数据获取及预处理涉及的新闻页面采集、新闻信息抽取、新闻报道的模型表示进行了说明;针对Web新闻领域信息的特点设计了话题检测与话题跟踪算法,根据词性的不同赋予词语不同的权值,对余弦相似度计算公式进行了改进,通过实验验证了改进后的相似度计算公式对算法性能的提高,并在不同阈值下对话题检测与跟踪算法进行了测试;在话题搜索模块的实现过程中,提出了一种话题信息格式,并对这种结构化的话题信息建立了索引,实现了按内容相关性和按时间顺序进行排序的两种检索结果排序方法,给出了对互联网真实语料的处理结果;最后对系统的整体结构设计进行总结,并展示了部分演示界面。
其他文献
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必
近年来网页恶意代码由于其隐蔽性和危害性,逐渐成为网络安全热点。传统的恶意代码检测技术主要有特征码检测法、启发式检测法等,这些技术对于检测已出现的病毒非常有效,但是
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不
随着计算机技术和光电技术的发展,出现了一种新的检测技术--基于计算机视觉的测量技术,该技术是一种利用CCD摄像机作为图像传感器,综合运用图像处理技术进行非接触测量的方法,具
名词短语在句子中常常担任主语、宾语或定语等重要句法成分,其识别是自然语言处理领域的基础任务。汉语简单名词短语作为一种特殊类型的名词短语,兼具结构简单性和语义准确性
生物信息领域中,批量蛋白质同源性搜索和模体识别是当今的两个研究热点。本文针对批量蛋白质同源性搜索问题和模体识别问题,提出了基于聚类和压缩的批量蛋白质同源性搜索算法
随着生物信息技术的快速发展,海量基因组数据的涌现进入后基因组时代,研究者不再局限于研究单个基因的功能,而是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种
随着互联网技术的快速发展,移动互联网、智能硬件、大数据、云计算、人工智能以及020等新技术层出不穷,互联网技术已经应用到生活的各种场景中,极大地方便了人们的生活。在这