大数据环境下中文词库动态更新系统模型研究

来源 :济宁学院学报 | 被引量 : 0次 | 上传用户：kentxp

【摘要】

：

文本分词以及语义相似度地计算大都依赖于中文词库,而网络的飞速发展产生了很多未收录词库的新词,进而影响了分词的效果和相似度计算的准确性。针对网络时代信息爆炸和新词出

【作者】

：

刘超超

【机构】

：

西南科技大学经济管理学院

【出处】

：

济宁学院学报

【发表日期】

：

2017年5期

【关键词】

：

大数据词库动态更新系统模型 big data thesaurus dynamic updating system model

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分词以及语义相似度地计算大都依赖于中文词库,而网络的飞速发展产生了很多未收录词库的新词,进而影响了分词的效果和相似度计算的准确性。针对网络时代信息爆炸和新词出现频率高的特性,提出了在大数据背景下动态更新中文词库的模型。依据大数据的特点,提出了备用词研判标准模型,进而以四个子模型为基础提出了词库动态更新模型。

其他文献

广播产业发展的民生化思考

在广播电视传统主业受到严重冲击的今天，广播电视产业的发展方向和出路在哪？在全国广播从业者中和广播理论界，对于广播产业化发展方向，实践者进行了多方位的探索，理论者也提出过许

期刊

广播电视产业产业发展民生化产业化发展衍生产品内容产业理论界从业者

网络打印机为什么被锁住了

【正】我曾为单位布置过一个由八台电脑组成的小网络,共用一台激光打印机和一只某品牌的ADSLModem,为防病毒及黑客,在每台电脑上安装了《金山毒霸2002》,一切都很顺利。前段

期刊

网络打印机激光打印机服务器电脑

数码相机的存储卡

<正> 数码相机的便捷在很大程度上来源于它的独特影像存取形式。它所拍摄的影像是以数字文件形式存储在特定的存储介质中的。所谓数码相机的存储介质就是在数码相机中的可随

期刊

数码相机存储卡存储器半导体存储器计算机

在WinXP中实现高速启动的几种方法

一、禁用外设,加速启动在WinXP中暂时禁用一些外设,可以有效地减少系统启动时需要调入的外设驱动程序数量,从而加快系统的启动速度,因为WinXP在启动时会自动扫描硬件的变化.

期刊

WINDOWSXP操作系统文件夹设备管理器设备驱动程序高速启动方法

找回Winzip和Office上的密码

【正】 Winzip Winzip是我们最常用到的压缩软件,它具体的密码保护功能可以为我们保护文件起到很大的作用,如果你的密码忘记了,不要着急,因为我们有uzpc。 uzpc是一款专门破

期刊

WINZIP工具软件压缩软件OFFICE密码办公软件文档

朱橚《元宫词》的诗史意蕴和价值

明初周定王朱橚所作《元宫词》百篇隐含了大量真实、丰富的元末宫廷历史信息,具有较高的艺术价值。通过对《元宫词》百篇艺术和历史价值的考述,可以发现融诗心于史迹的抒写方

期刊

朱橚元宫词诗史融诗心于史迹

济宁方言的疑问句

济宁方言疑问句类型与普通话一样可分为是非问、特指问、选择问、正反问四种,疑问句中存在丰富的疑问语气词、疑问代词;部分疑问句句型结构存在疑问倾向性和时体针对性;许多

期刊

济宁方言疑问倾向疑问句jining dialectdoubt tenentiousnessinterrogative sentence

大数据环境下中文词库动态更新系统模型研究

其他学术论文