【摘 要】
:
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长
【基金项目】
:
陕西省自然科学基础研究计划项目(2013JM8042)
论文部分内容阅读
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
其他文献
一提到墨子,人们就会联想到“兼爱”和“非攻”。其实这只是《墨子》一书提出的十项主张中的两项,墨子还有很多主张值得人们注意,比如“尚同”。$$“尚同”是墨家的重要观点,“尚
<正>张永利/电子工业出版社/9787121274930/2016-01/38.00用日记的方式,真实而生动地记录了作者和他的团队进行内部创业——开发"家长汇App"的产品历程,向大家展现了一群从事
刘文典,安徽合肥人,近代著名学者。他的《杜甫年谱》是上世纪50年代杜甫与杜诗学研究的重要成果之一。这部年谱在继承前人的基础上,又有所创新。然而,目前学术界对这部《杜甫年谱》关注不多,研究还比较薄弱。本文即以刘文典《杜甫年谱》为主体,深入分析该谱的内容与特色,并重点探讨其学术价值和意义。论文分四个部分进行论述:绪论部分:首先,明确本文的研究目的及研究意义。其次,介绍有关刘文典这部《杜甫年谱》的研究现
伴随着可持续发展战略的提出,人们的环保意识在不断增强,对林业发展的重视程度逐渐提高,因此很多新型的林业创新技术逐渐涌现出来。林业的创新技术对于林业的健康、可持续发
一些基于熵的阈值图像分割技术考虑了空间信息,从而能够提高阈值分割的性能,但是仍然不能较好地区分边缘和噪声。尽管灰度-梯度(gray-level&gradient-magnitude,GLGM)熵算法能有
数据传输及处理能力是月基平台构建中的一个重要问题,如何高效准确地传输海量对地观测数据至地球供后续研究是开展月基对地观测的关键环节。通过STK和MATLAB软件联合仿真,模
本文讨论两种不同整流电源(即半波倍压及全波整流不滤波电源)在不同负载情况下,微波炉用连续波磁控管阳极电压与阳极电流及输出频谱的各种波形,分析了不同电源时电流导通角及频谱
范晓对语法理论、词类区分、汉语动词、短语、句子等问题都有较为深入的研究。其语法观内容丰富,观点新颖,有不少创造性的观点,在中国语法思想史上起到了承前启后的作用。
文章通过对孔壁平均去钻污量的数据分析,研究了厚径比与孔壁平均去钻污量的规律,初步界定了等离子去钻污加工高厚径比的能力。通过对等离子去钻污均匀性的控制,控制平均去钻污量
定量分析了我国主要航空公司市场份额的比重和变化,计算了我国航空运输业市场2001--2005年的行业集中度(CR3、CR4和CR8)、HHI指数和倒数N指数,一致得出我国航空运输业是一个寡头