【摘 要】
:
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从
【机 构】
:
清华大学智能与网络化系统研究中心,国家计算机网络应急技术处理协调中心,西安交通大学智能网络与网络安全教育部重点实验室
【基金项目】
:
国家自然科学基金资助项目(61221063,61572397,61502383);陕西省自然科学基础研究计划资助项目(2015JM6298)
论文部分内容阅读
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明
其他文献
回眸历史,在现代文学中,我们会发现,孙犁是以男性眼光观照着女性情怀,他笔下的妇女形象,栩栩如生,刚烈要强但又柔情万种,摇曳多姿.无独有偶,两极相遇,在当代文坛,池莉以女性
建立和完善系统性金融监管体系中国人民银行山东省潍坊市分行刘福毅刘世明曹京芝中国人民银行潍坊市分行在金融机构监管工作中,树立系统监管和风险监管新观念,把监管重点放到经
近年来,在固定化微生物处理污水方面国内研究报道逐渐增多,人们对于包埋材料也进行了多方面的探索,如琼脂,海藻酸钠,聚乙烯醇(PVA)等均见到相关研究报道,但是使用聚乙二醇(PEG)作为包埋
本文设计了一种基于RFID的预付费电能表管理系统。该系统以Microsoft Visual Studio.NET为开发平台,结合MS SQL Server数据库,实现对基于RFID的预付费电能表的信息管理,由售
针对无人机(UAV)视频中目标易受到遮挡、形变、复杂背景干扰等问题,提出一种基于自适应深度网络的无人机目标跟踪算法。首先,基于主成分分析(PCA)和卷积神经网络(CNN)算法,设
在人体步态的解析研究中,足底压力信号常被检测用以分析步态的变化情况.其中,以传 感器阵列采集的足压信息,因信号关联性弱、冗余度高以及噪声干扰等原因,而无法直观识别出步
【正】1966年,陈若曦怀着热情的梦想与丈夫段世尧一起离开美国,回到了祖国大陆.当时,在她的心目中,祖国大陆不仅是她自我精神上的根之所在,也是整个时代真理之所在.关于这一
近日由南通中远船务自动化公司研制的SD-01海龙系列深潜泵在南通中远船务公司承建的"邦嘉"自升式驳船上正式投入使用。该系列深潜泵获得美国船级社的产品认证,填补了国内相关
沃尔夫冈·阿玛多伊斯·莫扎特,古典乐派音乐家、作曲家,在世界古典乐坛地位显著。莫扎特的钢琴奏鸣曲作品集中体现了他单纯明快的创作风格与独特的音乐气质,在西方