Skip-Gram模型融合词向量投影的微博新词发现

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:sunlang110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率.
其他文献
由于网络一般都使用公共的网络协议,对于一些特殊的用户,出于特殊的考虑,对公共协议的安全性不够放心,需要量身打造适合自己的专用协议,以满足安全性和特殊性的需求.设计了基
得益于虚拟化技术的成熟发展,当下私有云和公有云数据中心已经越来越多的出现在企业、学校和研究机构当中.相对于物理机,虚拟机拥有更好的迁移性、可扩展性和相对低廉的购入
完成对深空测控外部存储系统磁盘阵列的设计是深空战略工作中的一部分.本文在分析磁盘组阵各性能的基础上,为深空测控计算机外部存储系统给出磁盘阵列组阵建议.根据深空测控
目前很多大型企业的核心业务采用二级部署模式,此模式下总部对全公司范围内业务数据进行全面即时统计分析时会存在数据量大、存储分散、需求变化响应不及时以及手工统计填报
遗传算法和粒子群算法都具有很强的搜索能力,在最优化问题中有着极其广泛的应用.文章针对常微分方程(DE)近似解和一般线性规划(LP)问题的解利用遗传算法和粒子群算法求解,深入的比较和分析了GA与PSO在这两种优化问题中的效率.在固定其他参数而调整群体数量的基础上比较了GA与PSO在微分方程近似解和LP问题解的优化能力.
本设计是对现有升降机监控系统的信息化升级改造,实现升降机工作状态的数据采集与记录,并在本地显示器和远程监控平台上动态呈现和实时处理.整个系统分下位机数据采集和上位
针对股票价格的动态性及非线性等特点,提出了基于改进遗传算法(Genetic Algorithm,GA)优化参数的支持向量回归机(Support Vector Regression,SVR)股价预测模型.首先将选取的股票
工作日志是软件外包项目监控项目进展的一个重要手段,它由工作人员填写汇报项目进展.工作日志的质量一定程度上体现了过程执行的质量,但是由于其数量庞大内容琐碎,很难依靠人工完
针对现有山体滑坡预警系统中有线传输、人工播报等弊端,采用MPU6050三轴加速度传感器设计一种低功耗、高精度的山体滑坡远程监控系统.系统通过Zig Bee无线传感器网络采集数据
研究了一种在火灾现场对被困消防员进行应急救助的三维定位方案.该方案采用线性调频扩频(CSS)技术与其独有的对称双边两路测距(SDS-TWR)机制,并结合BMP085气压传感器测量高度,实