一种新的中文词自动聚类算法

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:reno1126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.
其他文献
通过对结构与理想流体耦合问题的分析,利用有限元方法对流固耦合系统动力响应进行了研究。采用精细时程积分法、威尔逊θ法和纽马克法进行计算。算例表明,精细时程积分方法具有
水稻OsRab5a基因在根、茎、叶、根茎结合部和颖片及愈伤组织中均有表达;OsRab5a蛋白主要参与细胞内吞过程的早期膜泡运输,GFP—OsRab5a主要存在于细胞膜上和早期内吞小体中,而GF
利用试验手段测量了多孔陶瓷板城市燃气预混燃烧氮氧化物 (NOx)的排放量 ,并对试验中的热工参数 (如燃气热值 ,陶瓷板表面温度 ,燃气压力 ,温度及流量 )进行了测量 .通过试验得知该燃烧过程的氮氧化物的排放量很低 ,进而从氮氧化物的生成机理上详细分析了氮氧化物排放量低的原因 .
基于顺序空间连接查询的效率不能令人满意 ,利用并行机制提高空间连接查询效率 .空间连接查询的并行处理方法最重要的特征是任务分配根据多路平面扫描顺序 ,避免了连接处理过程中处理器之间的通信花费 .提出基于空间连接花费模型的任务分配方法和基于花费估计的动态任务分配策略 ,并给出了花费模型 .该模型经实际应用效果明显
使用高斯近似法分析和比较了多波长光码分多址(MW OCDMA)与波分复用+OCDMA(即WDM+OCDMA)系统的误码率性能,两种性能使用的地址码是素数码及其构成的二维光正交码,并且假定WDM+OCDMA
采用磁控溅射方法制备Cr-Si-Al电阻薄膜,以X射线衍射仪和透射电镜研究薄膜在不同温度退火处理后微观结构的变化,并利用四探针法测量薄膜的电阻值.结果表明:薄膜在低于250℃热
利用热丝大面积金刚石薄膜气相合成(CVD)装置制备了复合金刚石薄膜,并对其表面和断面分别进行了扫描电镜(SEM)、原子力显微镜(AFM)和Raman光谱表征.研究了该复合结构的介电性