基于子话题分治匹配的新事件检测1

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:xwxseven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题。现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题问互为噪声并形成错误语义,从而误导新话题的识别。针对这一缺陷,本文提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型。实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859。
其他文献
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K
数字媒体技术的快速发展,使得对海量视音频信息进行高效检索的需求越来越广泛和迫切。本文介绍的关键音检索系统,融合了语音处理技术和信息检索技术,能够对海量音频信息进行快速的检索,找到检索词发音的准确位置,为语音内容自动检索提供了新的手段。该系统采用音素矩阵的索引和检索算法,构建在自主研发的并行计算平台之上,具有高准确率、稳定可靠和海量处理能力等优点。实验数据表明,该系统在检索准确度、速度和存储等方面均
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问题提出一种新的计算方法,即根据剩余文档矩阵信息递归计算每步的主投影方向及判断投影方向个数,并将该方法应用于文本分类,在Reuters-21578文档集上进行实验,结果表明此方法能有
Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的
本文采用一种基于滑动窗口的流数据频繁模式算法DSFP-SW(Data Stream FrequentPattem based-on Sliding window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。以前缀树(DSFP-SW-tree)来存储每个基本窗口的临界频繁项集,结合剪枝算法,快速挖掘滑动窗口中所有频繁模式。实验采
为了改善传统信息查询的效率,本文在对本体和基于案例推理机制(CBR)理论进行了深入研究和探讨的基础上,将传统的信息查询、CBR 和本体技术相结合,设计并实现了面向查询的基于案例的本体推理(CBOR)系统框架。采用OWL作为本体模型的描述语言,从本体库中抽取本体案例并存储在案例库中,将对本体库的查询转换为对应案例库的查询,借助OWL强大的推理功能和CBR的优越性能,成功地提高了针对特定领域知识查询的
提出了一种基于区域信息熵的图像检索方法,该方法首先根据形状主方向对图像进行旋转,并对旋转后的图像提取目标区域;然后将图像的目标区域沿圆周方向划分为若干个子区域,并统计各个子区域的信息熵,最后使用欧式距离度量熵矢量之间的相似性。在商标图像库的实验结果显示该方法所提取的特征能够有效的描述图像的形状,对图像库中2000多幅商标图像实验表明,区域信息熵能具有良好的旋转、平移、尺度不变性,得到的检索结果能够
文章提出了一种基于小波和Hough变换的仿射不变性商标检索方法。根据商标图像色彩单调、纹理简单的特点,首先对商标图像进行二值化处理并做Hough变换;然后,对经Hough变换的商标图像信息进行规范化处理,使其对应的小波变换具有仿射不变性,并用Mexican Hat小波对规范化后Hough变换信息进行奇异点分析。最后根据奇异点的信息进行商标检索。实验结果表明,该方法在检索效率和检索准确率上均高于现在
渐进直推支持向量机(PTSVM)扩展了直推支持向量机(TSVM),有效地解决了不同样本分布需要人工指定工作集正负样本比例问题。但是,把二分类扩展到多分类并非易事。本文提出了一种基于渐进直推支持向量机的半对半(HAH)多类文本分类算法,实验证明,在训练速度、测试速度、模型大小方面,明显优于一对其它(OAA)、一对一(OAO)、导向决策非循环图(DDAG)方法,分类的准确性与OAA、OAO、DDAG基
PageRank模型的提出使得越来越多的研究者投入到了网络搜索算法的研究工作中。随着针对搜索引擎排序的欺诈现象的出现,出现了很多改进的PageRank算法如Trusmank和BadRank等。但是到目前为止,还没有完全有效的办法来抵制这些作弊现象。在本文中,我们假设Web网络中的各网页之间的关系符合现实中的实际的万有引力定律,通过这种网页之间的引力关系来决定一个网页对另外一个网页的支持的力度。在此