【摘 要】
:
针对新闻数据流的事件检测问题,提出了一种基于突发特征分析的事件检测方法。事件由在一定时间窗口内代表它的特征构成,通常它们在事件发生时表现出一定的突发。通过多尺度突发分析算法识别出突发特征,并计算突发特征突发模式的相似性及所在新闻的重合度,对突发特征进行聚类分析以构造事件。在路透社80多万篇新闻数据集中验证上述算法,可准确地识别出突发特征各种跨度上的突发,且能有效地检测出事件。
【机 构】
:
浙江科技学院,浙江大学计算机科学与技术学院
论文部分内容阅读
针对新闻数据流的事件检测问题,提出了一种基于突发特征分析的事件检测方法。事件由在一定时间窗口内代表它的特征构成,通常它们在事件发生时表现出一定的突发。通过多尺度突发分析算法识别出突发特征,并计算突发特征突发模式的相似性及所在新闻的重合度,对突发特征进行聚类分析以构造事件。在路透社80多万篇新闻数据集中验证上述算法,可准确地识别出突发特征各种跨度上的突发,且能有效地检测出事件。
其他文献
分析了RSSI(received signal strength indicator)测距的原理及环境对RSSI的影响。论述了高斯模型校正算法,该算法中因含有与环境相关的路径散逸指数而产生较大测距误差。针对这一问题,提出了基于锚节点的高斯校正算法,该算法以锚节点对之间的已知距离和测量的RSSI值为参考,对由被测RSSI值得到的距离进行校正,消除了路径散逸指数,并用网络连通信息和RSSI联合定位。仿
针对车间作业调度问题,提出了一种混合了知识进化和粒子群优化的算法。该算法主要是结合知识进化算法的进化选择机制和粒子群优化的局部快速收敛性特性,首先让粒子替代知识进化算法中的进化个体,在群体空间中按粒子群优化规则寻找局部最优,然后根据知识进化算法的全局选择机制寻找全局最优,最后将车间作业调度问题的特点融入到所提出的混合算法中求解问题。采用基准数据进行测试的仿真实验,并比对标准遗传算法,结果表明所提算
为进一步提高认知无线电频谱感知性能,提出一种基于信任度加权的软合并感知算法TWCS(trustweighted cooperation sensing)。该算法首先定义一个模糊型指数信任度函数,对两认知用户间的信任程度进行量化处理,并通过信任度矩阵度量各认知用户测得数据的综合信任程度,以合理分配测得数据在融合过程中所占权重。仿真结果表明,与最大比合并和信噪比加权合并等算法相比,TWCS算法不仅具有
针对病毒特征检测中码串长度对模式匹配算法性能影响的问题,结合基于码串长度的特征集自适应分类思路,提出了两种改进的多模式精确匹配算法,即NAC_BM和NWM_QS。改进算法通过引入文本窗口的前缀字符块WB增加了跳跃距离,减少了匹配次数,加快了匹配效率。初步实验证明,改进算法在执行时间和速率上优于原算法。
针对NP-hard组合优化问题,提出一种基于启发因子的自适应混合离散粒子群算法对其进行求解。通过改进离散粒子群运动方程,并加入启发因子,从而提高算法的收敛性和稳定性;依据粒子多样性的动态变化,引入自适应扰动算子,以保持种群进化能力。该算法对低、中、高维的TSP数据仿真结果表明,与其他混合离散粒子群算法相比,具有更好的全局收敛性和稳定性。
现有的基准词选择方法存在着随机性和主观性的缺陷,提出了一种基于词聚类的基准词的选择方法:从目标领域本体中选出一组初始种子词进行扩展,聚类得出二代种子词,对二代种子词再进行扩展、聚类,依次迭代直至得到最优的聚类种子词,并作为最终选取的基准词。实验结果表明该方法提取的基准词在词的情感倾向分类中具有较高的准确率。
为了控制文本水印自动摘要攻击造成的语义信息损失,在已有的自动摘要评估方法的基础上,针对自动摘要文本水印攻击算法提出一种评估文本语义损失度的算法。该方法通过量化句子语义,合理计算摘要攻击造成的语义损失;并分析了攻击造成语义损失的主要因素,以及这些因素和语义损失量之间的数学关系。该方法能够从语义信息损失的角度更真实地评测摘要攻击算法的失真度,实现了自动化评估。
为有效减少移动Ad hoc网络路由协议开销并且实现网络路由的鲁棒性,引入位置匿名性和LAR局部定向洪泛机制。对Ad hoc网络中的ARMR协议(anonymous routing protocol with multiple routes)进行改进,提出一种新的基于匿名位置的多路径路由协议LAMR(location-based anonymous route protocol),LAMR与ARMR
为减少Pub/Sub系统中遍历广播的负载,基于社会学行为的小世界架构,提出了一种基于朋友圈的路由,给出了朋友圈划分算法以及基于朋友圈的Pub/Sub系统遍历算法,以限制消息在确定范围内传播,降低消息遍历的时间和广播开销。仿真实验表明,所提出的方法与Pub/Sub系统中传统的Gossip及洪泛法相比,可加快消息的传播速度,降低网络开销。