基于 PTM潜在 DirichIet 分配的少量标记样本文本分类

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:tanshuyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在 Dirichlet 分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在 Dirichlet 分配模型进行关系学习,构建基于图的分类器完成分类。在公开的 Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。
其他文献
"普希金图书馆"计划是索罗斯基金众多计划中最成功和重要的计划之一,是由多个分计划组成的内容丰富、实现形式多样的大计划,该计划内容涉及图书馆藏书、电子图书馆、图书出版
张舜徽的目录学研究,一个极富价值的特点,便是溯古达今,扼论学术简史的精彩笔法.这部分内容,是其较此前研究诸作改进完善的闪光点,尤其与张舜徽极看重的"辨章学术,考镜源流"
1亚健康状态的概念据报道上世纪80年代中期,前苏联学者Berkman通过研究发现,除了健康状态和疾病状态之外,人体还存在着一种非健康非患病的中间状态,称为“亚健康”(sub-healt
目的: 探索减毒沙门氏菌运送CD8+ T 细胞表位诱导机体产生特异性细胞免疫应答的规律性.方法: 通过构建融合表达OVA 257~264aa和LCMV NP 118~132aa CD8+ T 细胞表位的原核表达质
介绍源自西方的图书馆科学以客观性见长,因而是可复制的;同样肇始于西方的图书馆哲学,致力于追问如何在技术面前寻求精神平衡,因而是主观的、不可拷贝的。针对我国有关图书馆
目的观察博莱霉素(BLM)造模大鼠肺微血管内皮细胞(EC)紧密连接及Cx43表达的变化特征,探讨其在肺纤维化发生中的作用和意义。方法健康SD大鼠随机分为对照组和实验组每组20只,
长期以来,我国各族人民在保卫祖国、建设家园的伟大实践中锻造的爱国主义精神,以其巨大的感召力、向心力和凝聚力,始终维系着中华民族全体成员的意志和信念,成为鼓舞人们不断
目的研究脑脓肿形成和发展过程中所涉及的新分子。方法对应用mRNA荧光差异显示技术(DD-PCR)获得的脑脓肿早期差异表达cDNA片段G2-3进行电子克隆,根据电子克隆的结果设计引物
针对现有的 Neural-Gas 算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其他更近的簇的质心的距离值,而不仅仅是点与簇质心间
有效地减少 RFID 系统中冗余阅读器或天线采集到的大量重复数据,可以降低系统能耗和提高处理效率。经研究,提出采用改进的布隆过滤器(Bloom filter)对 RFID 采集数据进行去重过滤