科技新闻热点发现关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:akhiv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上的信息量变得极其庞大,而作为Web1.0时代就已经出现的传统应用,网络新闻仍然有着很高的使用率。为了方便用户有效地发现自己想要的信息,需要对新闻报道按事件进行组织。话题发现的目标是将讨论同一事件的文档划分到一起。相对其它领域,科技新闻有以下两个特点:话题的范围相对较窄,事件之间相关性更强。在科技新闻中进行话题发现时需要充分考虑这些特点。此外,为了方便用户对当前的热点话题获得一个全面的了解,进而更加准确地获取自己感兴趣的信息,需要对事件产生一个直观的描述。针对以上分析,本文主要研究内容包括以下三个方面:第一,对新闻文档进行建模。首先为了以关键词组合的形式对当前的热点话题进行描述,需要进行关键词抽取;其次在接下来的处理过程中,需要计算文本之间的相似度。根据以上需要,本文采用主题模型PAM(Pachinko AllocationModel)对对文档进行建模,完成关键词的抽取并将得到的文档主题分布向量用于相似度计算。接下来通过与TFIDF和HHMM的对比实验对关键词抽取的有效性进行了验证并对主题模型的优越性进行了分析。第二,对新闻文档进行聚类。首先需要将文档按相关性进行划分,便于接下来的进一步处理;其次产生以关键词组合表示的事件描述复杂度较高,需要减少计算量。本文通过对典型聚类算法K-means、K-means++和AffinityPropagation的对比分析,选择了更适合本文具体应用的Affinity Propagation聚类算法;并进一步比较了不同相似度度量对聚类结果的影响,从另一个角度验证了主题模型的有效性。第三,产生以关键词组合表示的事件描述。因为聚类结果召回率较高而准确率和纯度较低,所以需要对聚类结果进行进一步的加工处理;而聚类产生的簇中关键词数目相对整个文档集合有了明显地减少,因此可以采用频繁项集挖掘算法。本文通过一个时间段的新闻文档上的实验对算法的有效性进行了验证。接下来通过对不同时间点的关键词组合进行比较以发现报道侧重点的变化,给出了在演变趋势追踪方面的初步应用。
其他文献
CT图像是诊断肺癌的重要手段,用计算机辅助检测肺部CT图像的阴影可以减轻医务人员的工作负担和提高医务人员的工作效率,具有良好的研究前景和重要的应用价值。本文的主要工作是
随着IT技术的进步,应用系统的网络化,为提高系统的处理能力,分布式集群系统得以广泛的应用。同时,互联网络安全事件愈演愈烈,使得这些集群系统随时都面临着各种安全威胁。由于分布
无线传感器网络通过传感器节点能感知物理世界的相关数据信息,同时能实现这些数据信息与网络信息的连接,所以无线传感器网络在目标追踪、医疗护理和军事等领域都有广泛应用。由于传感器节点分布环境的不确定,实时保证这些节点的能量供应仍是目前难以解决的问题。如何有效降低网络能耗,如何均衡网络中各节点的能量消耗,如何提高算法效率,从而有效延长网络寿命时间是无线传感器网络中路由协议设计所要解决的主要问题。针对上述问
学位
网络论坛(BBS)由许多讨论不同话题的帖子构成,蕴含着丰富的有价值的信息,已经成为当今互联网的一个重要的舆论信息传播渠道。在BBS中,参与回帖的网民可能会由于对同一话题的意见或
随着空间数据库在实际应用领域的广泛发展,空间查询中的最近邻查询及其变体查询研究成为热点问题。已有的最近邻查询已经不能满足广泛的应用需求,为此最近邻查询研究的数据环
近年来,随着我国经济高速发展和高校办学规模的扩大,高校经费来源由过去单一的国家财政拨款,逐渐转变为以财政拨款为主,多渠道筹措教育经费的多元化格局。同时,学校财务业务
无线传感器网络近年来发展迅速,它综合了多个学科的相关技术,能够对各种环境进行连续地监测,在环境,军事,医疗等许多领域具有巨大的应用潜力。在实际应用中,节点的位置坐标很重要,缺
随着互联网技术逐步发展,网络安全问题日益严峻,围绕着反编译技术,逆向工程以及嵌入式驱动理论的各种病毒,木马以及流氓软件给网络用户的个人隐私,财产安全都带来的严重的威
在当前分布式互斥请求集生成算法研究中存在算法的对称性和请求集长度不协调,时间复杂度、空间复杂度与请求集长度不能兼顾的问题,为了解决上述问题本文主要从以下三个方面进
近年来软件开发技术不断成熟完善,分布式软件在医疗,交通,军事等许多重要领域扮演着越来越重要的角色。由于分布式软件自身规模大,软件复杂度高,开放性强的特点,在其被广泛运用的同