一种改进的基于二元统计的HMM分词算法

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:oibaggio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。
其他文献
提出了一种雾化过程多尺度仿真算法:对大块液团运动,采用流体体积法直接模拟;将与网格尺度相当或更小的液滴简化成粒子,采用一种基于虚网格的拉格朗日粒子法进行追踪;湍流运动
脉冲星拥有高度稳定的自转周期,可用对其的观测信息来校正星载原子钟钟差。针对脉冲星守时系统中脉冲到达时间的微小偏差会严重影响守时精度的问题,提出一种考虑系统偏差的脉冲
针对目前国内油田信息抽取系统中文信息抽取不准确的现状,提出了更为准确的基于油田的中文信息抽取的解决方案。在GA T E框架下,开发中文信息抽取插件,解决了基于油田的中文分词
高能激光系统中,单晶硅基底反射镜的能量吸收系数是影响系统性能的关键指标。衬底加工质量对镀膜后元件激光能量吸收系数影响显著。通过测试不同衬底粗糙度、划痕密度的单晶
一则公告清楚显示+ST创智(000787)离退市不远了。11月7日,*ST创智发布公告称,公司董事会表示考虑到中小投资者对本次重组方案存在较大的分歧,决定与四川大地实业集团有限公司(下称“
用速度滑移与温度跳跃边界条件代替通常假定的无滑移边界条件,可有效地提高计算流体力学模型对高空滑移流区域流动的预测精度。应用Maxwell滑移边界条件时,通过直接计算速度
基于资源预留策略提出一种多级光互连仲裁机制,通过将网络分级实现快速、高效的仲裁。多优先级数据缓存队列的传输节点设计,提供了不同类型流量的差异化传输;通过预约式两级仲
为了解决内容分发网络中因缓存服务器部署位置而导致的网络延时等问题,同时改进内容分发网络中缓存服务器的合理化部署策略,论文借鉴网络仿真图像轻点匹配算法的思想,提出了一种CDN图像切割的多层K划分模式,通过理论分析和计算,同时找到了一种适合CDN网络环境的最大化边缘切割的K路KL(Kernighan-Lin)细化算法,它是根据物理部署点抽象出网络节点拓扑图,再通过相应的算法进行粗化和细化阶段的处理,使
【正】2012年12月,新一届党中央领导集体审议通过了改进工作作风、密切联系群众的八项规定,此规定一出,深得民心。可以说,这八项规定,利党、利民、利国,让人民看到了党中央改
淋巴肉瘤是家兔常见的一种恶性肿瘤,多数病例剖检时体内多个器官都见有肿瘤。但本病例肿瘤仅见于双侧肾,比较少见,故报道如下。发病经过及症状我校职工一只西德长毛兔,9个月
期刊