一种新的中文词自动聚类算法

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户：reno1126

【摘要】

：

基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据

【作者】

：

孙静朱杰徐向华

【机构】

：

上海交通大学电子工程系,上海交通大学电子工程系上海200030,上海200030,上海200030

【出处】

：

上海交通大学学报

【发表日期】

：

2003年z1期

【关键词】

：

自动聚类分类语言模型困惑度相似度算法 words automatic clustering class language model perplex

【基金项目】

：

上海市科学技术委员会基础研究项目(01JC14033)和美国贝尔实验室上海分部的资助项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.

其他文献

流固耦合系统动力响应分析的精细时程积分法

通过对结构与理想流体耦合问题的分析，利用有限元方法对流固耦合系统动力响应进行了研究。采用精细时程积分法、威尔逊θ法和纽马克法进行计算。算例表明，精细时程积分方法具有

期刊

流固耦合系统动力响应精细时程积分法solidliquid coupling additional water mass dynamic respons

水稻OsRab5a基因功能的初步分析

水稻OsRab5a基因在根、茎、叶、根茎结合部和颖片及愈伤组织中均有表达；OsRab5a蛋白主要参与细胞内吞过程的早期膜泡运输，GFP—OsRab5a主要存在于细胞膜上和早期内吞小体中，而GF

期刊

水稻(OryzaSATIVAL.)OsRab5a转化膜泡运输rice （Oryza sativa L.） OsRab5a transformat

多孔陶瓷板预混燃烧NOx的排放特性

利用试验手段测量了多孔陶瓷板城市燃气预混燃烧氮氧化物 (NOx)的排放量 ,并对试验中的热工参数 (如燃气热值 ,陶瓷板表面温度 ,燃气压力 ,温度及流量 )进行了测量 .通过试验得知该燃烧过程的氮氧化物的排放量很低 ,进而从氮氧化物的生成机理上详细分析了氮氧化物排放量低的原因 .

期刊

多孔陶瓷板预混燃烧排放特性氮氧化物大型燃烧设备Air pollution controlCeramic productsCombustionIn

并行空间连接查询处理

基于顺序空间连接查询的效率不能令人满意 ,利用并行机制提高空间连接查询效率 .空间连接查询的并行处理方法最重要的特征是任务分配根据多路平面扫描顺序 ,避免了连接处理过程中处理器之间的通信花费 .提出基于空间连接花费模型的任务分配方法和基于花费估计的动态任务分配策略 ,并给出了花费模型 .该模型经实际应用效果明显

期刊

空间数据库R树多路空间连接并行空间处理Database systemsInformation retrievalParallel processin

MW OCDMA与WDM＋OCDMA系统的性能分析

使用高斯近似法分析和比较了多波长光码分多址（MW OCDMA）与波分复用+OCDMA（即WDM+OCDMA）系统的误码率性能，两种性能使用的地址码是素数码及其构成的二维光正交码，并且假定WDM+OCDMA

期刊

多波长光码分多址波分复用二维光正交码素数码multiwavelength(MW) optical codedivision multipleacce

Cr-Si-Al薄膜微观结构及电阻率分析

采用磁控溅射方法制备Cr-Si-Al电阻薄膜,以X射线衍射仪和透射电镜研究薄膜在不同温度退火处理后微观结构的变化,并利用四探针法测量薄膜的电阻值.结果表明:薄膜在低于250℃热

期刊

电阻薄膜晶化微观结构电性能AnnealingChromium alloysCrystallizationElectric resistanceM

复合金刚石薄膜的介电特性

利用热丝大面积金刚石薄膜气相合成(CVD)装置制备了复合金刚石薄膜,并对其表面和断面分别进行了扫描电镜(SEM)、原子力显微镜(AFM)和Raman光谱表征.研究了该复合结构的介电性

期刊

金刚石薄膜复合结构介电特性Chemical vapor depositionComposite structuresDielectric proper

一种新的中文词自动聚类算法

其他学术论文