【摘 要】
:
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监
【基金项目】
:
国家自然科学基金资助项目(11161140319,91120001,61271426);中国科学院战略性先导科技专项项目(XDA06030100,XDA06030500);国家国家高技术研究发展计划(863计划)项目(2012AA012503);中科院重点部署项目(KGZD-EW-103-2)
论文部分内容阅读
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%~2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。
其他文献
本文采用内容分析的方法 ,从赵薇影迷的书信入手 ,分析了青少年偶像崇拜的原因、内容和特点。分析特别注重了偶像崇拜的年龄特点、性别差异和区域差异
电极位移曲线能够反映出点焊规范参数波动,是一个理想的监控参数。采用离散Daubechies4阶小波对电极位移曲线进行滤波处理,成功地将测量曲线分为电极位移趋势曲线、波动曲线
为了研究纤维原料对机织物热传递性能的贡献,对织物进行虚拟建模,利用有限元软件仿真对织物的传热进行数值模拟,得到传热过程中织物中的温度分布和热阻。结果表明:织物的模拟
目的对比分析痔上黏膜环切术与选择性痔上黏膜切除术治疗Ⅲ度混合痔的临床疗效及安全性。方法选取在我院治疗的Ⅲ度混合痔患者118例。按照手术方式将患者分为两组,一组采用痔
社会就业已是一个全球性问题,也是我国一直关注和解决的民生问题。当前我国就业率不高,将会对国民经济的可持续发展及社会的和谐稳定产生不利影响。文章从失业的界定与计量、
本文通过对中国传统文化的研究、对马克思主义经典作家有关文化建设思想论述的学习、以及对国内外学者对文化软实力这一思想研究成果的分析,综合学习研究胡锦涛同志一系列思
角色游戏是幼儿期最典型,幼儿最喜爱、最有特色的一种游戏。怎样使幼儿在角色游戏中获得更好的发展怎样让每个幼儿在角色游戏中能有不同程度的提高通过实践,我觉得游戏讲评是
<正> 当前,青少年犯罪已构成严重的社会问題。其中,两性关系罪错在青少年犯罪构成中占有相当的比例。以北京市少管所为例,在1200名犯罪少年中,犯有两性关系罪错的692人,占57%,
探春梦想着成为一个男人,立一番事业。这一愿望可以说明她有着潜在的男性心理品质。探春有一种与生俱来的政治家的胸怀和气度。这种素质在传统文化中使其显示出较为明显的男
本文运用Engle-Granger协整关系检验法和Granger因果关系检验法,对我国1991—2006年间FDI、知识产权保护力度和自主创新能力三者之间的相互关系进行实证研究。结果显示:在我