大规模平衡语料的收集分析及文本分类方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:show800811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库和词典是进行自然语言处理研究的重要资源.语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持,否则只能是无源之水、无本之木.尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义.同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编篡、语言教学等工作的重要环节.因此,该论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论意义和实用价值.该文首先在欧共体项目(LC-STAR)的资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部相应的信息词典.该工作主要包括:(1)在对大规模汉语平衡语料收集方法进行调研和分析的基础上,收集并标注了规模达3087万字的汉语平衡语料;(2)以收集的语料为基础,建立了一个大规模(10多万词)的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等.以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV变量的处理方法,使得该算法的F1-Measure测度提高了4~5﹪.第二,类似于上面的处理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV变量,使得该算法的F1-Measure测度提高了12.28﹪.第三,在特征向量抽取方面,在Rocchio分类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将TF*ID算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优于其它常见的特征向量抽取算法.
其他文献
飞行机器人是一个极具挑战性的多学科交叉的前沿性研究课题.近年来,随着微电子技术特别是低价位的基于惯性测量元件的GPS/INS小型捷联惯导技术的发展,小型无人直升机这种具有
快速成型技术是一种全新的制造模式,但由于快速成型机售价高,技术难度大,很难得到推广和应用。基于这些因素,开展快速成型仿真技术的研究,既可以让一般的非专业人员形象地了解快速
针对空间用电源控制器工作环境恶劣,可靠性设计要求高的问题,本文提出一种对空间电源进行稳健设计和优化的方法。在电路设计上,各个功能模块通过电路仿真与试验,重点解决了母
随着现代信息技术的高速发展,在信号采集与处理领域中,由于数据量和传输速率的急剧增大,对硬件系统的性能要求逐渐变大,以奈奎斯特采样定理为指导的传统采样方式受到极大限制
本文研究的目的在于改进在钢铁企业中二维切割问题的优化模型。所做的主要工作在于加强模型所能表达的功能和针对优化问题的算法求解的改进。本文研究的二维切割问题是十分有
目前,矢量控制的思想在各个领域中都得到了广泛的应用,它通过坐标变换,实现了异步电机的解耦控制,从而达到了与直流电机一样的动态调速性能。在矢量控制系统中,磁链的准确估
ERP作为一种先进的管理思想和方法,将企业内部的资源包括人力、物料、设备、能源、资金、时间和空间等整合在一起,使得原来企业内部分散、孤立的“信息化孤岛”通过Intranet和I
聚类技术作为数据挖掘领域的重要分支,其目的是采用一定的手段(算法)将数据集划分为有意义的类(或簇),使得同一类内的样本在一定的标准(或规则)下相似性较高,而不同类的样本
学位
超声检测技术广泛应用与医学、流体等的测量中,因超声波在流体中传播,不会破坏流体的流场与造成压力损失,故超声检测技术拥有独特的优势。同时超声传感元件可以安装在管道外壁,也就能够避免与流体相互接触。本文主要针对应用于气液两相流测量的超声检测技术的问题进行研究。在两相流检测中,超声方法的应用仍存在一些问题。主要原因在于,超声波传播过程中,声波路径十分复杂,会产生多次反射造成波形的叠加,使超声波信号频率混