【摘 要】
:
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的
【机 构】
:
新疆师范大学计算机科学技术学院,中国科技大学计算机科学技术学院
【基金项目】
:
国家自然科学基金No.61040035, 新疆师范大学优秀青年教师科研启动基金项目(No.XJNU1011)致谢:实验中使用了搜狗实验室的大规模中文网络文本语料,并得到了倪剑莉老师的大力协助,在此表示感谢.
论文部分内容阅读
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。
其他文献
对苏万力等提出的无证书签名方案和张玉磊等提出的无证书签名方案进行了安全性分析,指出这两个方案在公钥替换攻击下是不安全的,分别给出了这两个方案的一种伪造攻击。提出了
低信噪比下,传统的小波去噪算法会造成语音信号中有用信息的损失,从而导致去噪性能的下降。针对这一问题,提出了一种基于清浊音分离的动态阈值小波去噪方法。采用谱减法去除部分
多音字消歧是普通话语音合成系统中字音转换模块的核心问题。选择了常见易错的33个多音字和24个多音词作为研究对象,构建了一个平均每个多音字(词)5000句的语料库,并且提出了—种
针对模块度存在的解限制问题,分析了复杂网络社区检测中一种新的测度模块密度。采用二分策略,通过最大化模块密度,提出了基于离散量子粒子群优化进行复杂网络社区检测的算法。通
使用三种简单易行的方法,让你的画面脱离阴影,重获光明。在拍摄高反差场景时,过于深沉的阴影以及大片没有细节的死黑区域总是让人很头疼,在被摄对象处于逆光位,对高光进行曝