面向手机3D动画的自动生成系统的短信话题检测

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhiyuanfengxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全过程计算机辅助动画自动生成技术是将人工智能理论引入到动画制作领域而产生的技术,20世纪90年代由中科院陆汝钤院士提出。全过程计算机辅助手机3D动画自动生成系统(简称手机动画系统)是动画生成技术在手机动画领域的应用,该系统的研究是一个崭新的课题,在国内外还没有类似的工作。  本文主要研究手机动画自动生成系统的中文短信话题检测,由于短信文本长度短小,信息量少,用词随意,话题广泛,短信的话题检测具有难度,本文在系统已有的基于规则的话题识别基础上,利用机器学习的方法来进行短信话题检测,主要研究工作如下。  1、采用LDA(Latent Dirichlet Allocation)向量空间模型,将向量空间中以词为维度转化到以浅层变量(“主题”)为维度的向量空间中,使得向量维度大大减小。然后再利用经典的SVM(支持向量机)模型进行分类模型训练,实验结果表明此种方法仍存在问题,LDA方法虽然能够将维度下降,但是由于短信的文本信息量少,用词随意,向量分布依然稀疏,LDA方法无法很好地利用浅层变量描述文本特征。  2、采用基于朴素贝叶斯的概率判别模型进行短信话题检测,其中的关键问题是话题关键词的选取,采用类TF-IDF算法进行关键词筛选,以及过滤掉停用词、多话题词等。针对筛选的关键词进行P(T|TermA)(T为话题,TermA为词)的后验概率的计算,最终生成一个“词典”文件。同时,对于话题判断结果,利用话题词典的验证,排除一些低可靠性的输出结果,以保证较高的正确率。实验结果表明此种方法具有很好的效果,不仅准确率高,而且计算效率也较高,能够弥补基于规则的话题识别方法的不足,在召回率上得到很大提高。  3、统计各个短信话题下的谓宾搭配,选取可靠性高的搭配作为话题判断规则。对一条短信的话题判别起关键作用的常常是谓语和宾语,其他句子成分只是起修饰作用,因此,对谓宾结构的搭配词进行统计,产生一个谓宾搭配词典文件。利用该词典文件进行话题检测。  4、对于系统设定之外的未知话题,采用Kmeans聚类算法,进行短信话题聚类,为未来新话题的模板添加提供帮助,减少人工的工作量。  经过实验分析对比,针对系统设定的话题,采用概率判别模型比向量空间模型要更合适,这是由于短信映射到向量空间中没有明显的分界面,而概率判别模型直接对短信中的字词进行话题概率求和,避免了数据稀疏问题。针对系统设定以外的话题,研究了话题检测规则的挖掘和未知话题的聚类分析,进行了可行性实验,但应用效果有待于进一步提高。
其他文献
用计算机对人脸图像进行处理进而实现人脸识别是如今的一个研究热点和难题,虽然已经取得了丰富的成果,但是也遇到了一些困难。例如:有效人脸特征的提取,识别率的提高等。因此,人脸
随着Internet技术的发展,B/S架构系统应用越来越广,如何实施对B/S架构应用的访问控制从而保障B/S架构应用的安全性显得越来越重要。然而,目前对B/S架构应用系统的安全防护还仅仅
由于各行各业对IT系统的严重依赖,高级持续性威胁(Advanced Persistent Threat,简称APT攻击)对政府部门、研究机构、军事组织和行业企业均构成了巨大威胁,已成为目前信息安全领
关于图像检索技术的研究兴起于20世纪70年代,当时主要是基于文本的图像检索技术,90年代以后,出现了基于图像的内容语义,如颜色、纹理、布局等进行分析和检索的技术,即基于内容的图
基于人体步态的身份识别是一种新兴的生物特征识别技术,它旨在通过人们走路的姿态进行身份识别。与其它的生物识别技术相比,基于步态的身份识别具有非接触、远距离和不容易伪装
IPv4地址已经耗尽,IPv6网络由试验转向商用阶段。原本IPv4网络中的许多协议不能直接应用到IPv6网络中。IETF分别制定了IPv6协议和DSR协议的相关标准,但是IPv4中的网络协议应用
学位
传统的信息安全系统主要防止外部的入侵攻击,与现在信息安全主要来自内部的威胁的实际不相符。随着信息安全系统的发展,产生了可信计算。可信计算是为了从根源上防止各种安全隐
信息化是当今世界发展的大趋势,是推动经济社会变革的重要力量,以信息科学为指导,以信息技术为工具,实现了农业信息化的快速发展。全面推进农业信息服务,是繁荣农村经济、加快现代
如何在互联网的海量信息中找到自己所需要的信息已经成为困扰人们的主要问题。元搜索引擎可以综合多个搜索引擎的查询结果,因而提高了搜索的覆盖率,但同时也带来了一些问题。元