基于外部排序的字串左右熵快速计算方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：pjlkj

【摘要】

：

左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的

【作者】

：

张海军彭成栾静

【机构】

：

新疆师范大学计算机科学技术学院,中国科技大学计算机科学技术学院

【出处】

：

计算机工程与应用

【发表日期】

：

2011年19期

【关键词】

：

自然语言处理左右熵统计特征新词检测 natrual language processing left（right）entropy statistica

【基金项目】

：

国家自然科学基金No.61040035, 新疆师范大学优秀青年教师科研启动基金项目（No.XJNU1011）致谢：实验中使用了搜狗实验室的大规模中文网络文本语料,并得到了倪剑莉老师的大力协助,在此表示感谢.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。

其他文献

两种无证书签名方案的密码学分析及改进

对苏万力等提出的无证书签名方案和张玉磊等提出的无证书签名方案进行了安全性分析,指出这两个方案在公钥替换攻击下是不安全的,分别给出了这两个方案的一种伪造攻击。提出了

期刊

无证书签名公钥替换攻击双线性对certificateless signature public-key replacement attack bili

一种基于清浊音分离的动态阈值小波去噪方法

低信噪比下，传统的小波去噪算法会造成语音信号中有用信息的损失，从而导致去噪性能的下降。针对这一问题，提出了一种基于清浊音分离的动态阈值小波去噪方法。采用谱减法去除部分

期刊

小波去噪阈值函数清浊音分离wavelet de-noisingthreshold functionseparation of voiced signa

用决策树指导TBL进行多音字消歧

多音字消歧是普通话语音合成系统中字音转换模块的核心问题。选择了常见易错的33个多音字和24个多音词作为研究对象，构建了一个平均每个多音字（词）5000句的语料库，并且提出了—种

期刊

多音字消歧字音转换决策树基于转换的错误驱动的学习(TBL)polyphone disambiguationgrapheme-to-phonemede

应用离散量子粒子群的复杂网络社区检测

针对模块度存在的解限制问题，分析了复杂网络社区检测中一种新的测度模块密度。采用二分策略，通过最大化模块密度，提出了基于离散量子粒子群优化进行复杂网络社区检测的算法。通

期刊

复杂网络社区检测粒子群优化模块密度complex networks community detection particle swarm optim

重放光彩!

使用三种简单易行的方法,让你的画面脱离阴影,重获光明。在拍摄高反差场景时,过于深沉的阴影以及大片没有细节的死黑区域总是让人很头疼,在被摄对象处于逆光位,对高光进行曝

期刊

PHOTOSHOP重放高反差阴影曝光黑区

基于外部排序的字串左右熵快速计算方法

其他学术论文