论文部分内容阅读
全过程计算机辅助动画自动生成技术是将人工智能理论引入到动画制作领域而产生的技术,20世纪90年代由中科院陆汝钤院士提出。全过程计算机辅助手机3D动画自动生成系统(简称手机动画系统)是动画生成技术在手机动画领域的应用,该系统的研究是一个崭新的课题,在国内外还没有类似的工作。 本文主要研究手机动画自动生成系统的中文短信话题检测,由于短信文本长度短小,信息量少,用词随意,话题广泛,短信的话题检测具有难度,本文在系统已有的基于规则的话题识别基础上,利用机器学习的方法来进行短信话题检测,主要研究工作如下。 1、采用LDA(Latent Dirichlet Allocation)向量空间模型,将向量空间中以词为维度转化到以浅层变量(“主题”)为维度的向量空间中,使得向量维度大大减小。然后再利用经典的SVM(支持向量机)模型进行分类模型训练,实验结果表明此种方法仍存在问题,LDA方法虽然能够将维度下降,但是由于短信的文本信息量少,用词随意,向量分布依然稀疏,LDA方法无法很好地利用浅层变量描述文本特征。 2、采用基于朴素贝叶斯的概率判别模型进行短信话题检测,其中的关键问题是话题关键词的选取,采用类TF-IDF算法进行关键词筛选,以及过滤掉停用词、多话题词等。针对筛选的关键词进行P(T|TermA)(T为话题,TermA为词)的后验概率的计算,最终生成一个“词典”文件。同时,对于话题判断结果,利用话题词典的验证,排除一些低可靠性的输出结果,以保证较高的正确率。实验结果表明此种方法具有很好的效果,不仅准确率高,而且计算效率也较高,能够弥补基于规则的话题识别方法的不足,在召回率上得到很大提高。 3、统计各个短信话题下的谓宾搭配,选取可靠性高的搭配作为话题判断规则。对一条短信的话题判别起关键作用的常常是谓语和宾语,其他句子成分只是起修饰作用,因此,对谓宾结构的搭配词进行统计,产生一个谓宾搭配词典文件。利用该词典文件进行话题检测。 4、对于系统设定之外的未知话题,采用Kmeans聚类算法,进行短信话题聚类,为未来新话题的模板添加提供帮助,减少人工的工作量。 经过实验分析对比,针对系统设定的话题,采用概率判别模型比向量空间模型要更合适,这是由于短信映射到向量空间中没有明显的分界面,而概率判别模型直接对短信中的字词进行话题概率求和,避免了数据稀疏问题。针对系统设定以外的话题,研究了话题检测规则的挖掘和未知话题的聚类分析,进行了可行性实验,但应用效果有待于进一步提高。