面向人物追踪的知识挖掘研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 33次 | 上传用户:tangyujia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,目前的研究偏重于综合利用各种手段来更好地满足新的应用场景,一系列国际评测也推动了各项技术的发展。尽管在移动通信领域,跟踪人物行踪的技术已相对成熟;然而,在自由文本空间内,如何根据人物的报道自动整理出相关人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。为此,本文提出了“人物追踪”的概念,首先对“人物追踪”进行了概括性的介绍,论述了“人物”和“人物追踪”的内涵和外延,提出了“人物模型”的文本表示方法,并对其进行了形式化的定义。随后,给出了人物追踪要解决的主要问题,相关的技术基础,处理文档资料的系统流程以及人物追踪在学术上和应用上的意义。在对人物追踪涉及到的主要技术进行了理论和方法上的综述后,本文结合人物追踪的系统流程,介绍了人物追踪数据预处理的方法。处理的文档主要是汉语的新闻网页。重点研究了网页解析和人物属性抽取的方法。通过数据预处理,把文本内容转化成人物模型的信息片断。接下来,本文研究了人物模型的同一性判断方法和数据融合方法。主要是处理人物模型片断的信息,不仅要把不同人物的信息区分开,还要把同一人物的信息进行整合,形成相对完整的人物生平履历。本文在这部分重点介绍了人物模型的特征表示和相似度计算方法。在人物模型同一性判断基础上,针对同一人物的活动报道,本文研究了人物活动事件的组织方法。事件的组织分为“微观粒度的事件组织”和“宏观粒度的事件组织”。本文对宏观粒度事件组织进行了重点的研究,按照国际上标准的TDT系列评测的要求,以文档或段落为基本的处理单位,不涉及具体的事件角色框架来对事件报道进行组织。本文不仅研究了宏观粒度事件的识别技术,还研究了事件之间层次关系的组织方法。随后,本文探讨了人物追踪若干细粒度挖掘任务的处理方法,并以“流通度理论”和“动态流通语料库理论”为基础,重点研究了人物知名度的计算方法。通过跟踪人物不同时期的知名度变化,绘制出人物知名度变化的曲线图。通过结合人物追踪的理论和技术研究,本文最后给出了人物信息搜索引擎的设计方案。不仅设计了体系结构,还给出了人物搜索引擎的索引结构和搜索结果显示界面。本文的研究成果为自由文本空间内人物信息的大规模组织奠定了坚实的基础,所提出的“人物追踪”概念为文本挖掘领域提供了一个崭新的研究视角和方向,对于抽象对象的挖掘具有重要的启发意义和实用价值。
其他文献
西安市地处大西北,是西部经济发展的桥头堡,经济发展活跃,随着房地产交易管理制度逐渐健全,市场的行为逐渐规范完善,房地产业投资潜力巨大。房地产业在迅猛发展的同时,也暴露
以盐酸-过氧化氢为氯代试剂,由对硝基苯胺制备2,6-二氯-4-硝基苯胺。结果表明,过氧化氢的比例、反应温度对收率有较大的影响。过氧化氢过量,反应温度在50℃时,可缩短反应时间,提高收率。
用麦麸制取植酸钙的研究田玉珍,赵有贵(河北化工学校石家庄市050031)1前言植酸钙镁,也称菲汀,是制取植酸、肌醇的主要原料。植酸钙在医药、食品、纺织、印刷工业中有着广泛应用。近年来国
111树脂球径窄分布工艺探索吕志(华北制药厂赵县树脂分厂赵县051500)1前言窄分布树脂在应用过程中有许多优点。其颗粒均匀,对外界应力反应相对一致,降低了破碎率,吸附交换性能更稳定,容易再生
<正> 我厂始建于1970年,主产氯乙酸,年产量1000t以上。按照以往的工艺,醋酸氯化液结晶后,用真空抽滤母液得到氯乙酸产品。实践证明,真空抽滤耗用时间较长(约20h),母液分离不
庭院葡萄冬季修剪,是合理利用架面,延长树体寿命,提高产量和品质的重要措施之一。一般在落叶后20-30天进行.修剪时应选留生长健壮、成熟良好、芽眼饱满、位置适当和无病虫害
为得出抗滑桩加固的边坡在不同工况下的特性变化,文中基于MIDAS三维有限元分析软件,分析了在不同弹性模量和不同堆载作用下抗滑桩边坡土体的位移应力变化。结果表明不同弹性
综述了对氨基酚的5种生产方法,国内外生产及消费情况。
目的探讨胃镜下卢戈液染色诊断早期食管癌及癌前病变的价值。方法对40例胃镜下食管有可疑病变者行卢戈液染色,观察着色情况并取材常规送病理检查。结果 40例卢戈液染色有24例
微电网作为促进可再生能源友好接入的一种技术手段,在世界范围内得到快速发展。文中介绍了微电网技术及其应用现状,在分析微电网与传统电网及智能电网区别的基础上,阐析了微