【摘 要】
:
随着互联网等重要应用的普及,人们在生活和工作中都在不断地获取新的信息。面对日益增加的信息量,文本分类技术为人们提供了一种高效地自动管理信息的方法。传统的分类算法通常
论文部分内容阅读
随着互联网等重要应用的普及,人们在生活和工作中都在不断地获取新的信息。面对日益增加的信息量,文本分类技术为人们提供了一种高效地自动管理信息的方法。传统的分类算法通常假设训练数据和测试数据服从相同的数据分布。然而,实际应用中由于收集数据的时间以及途径不同,训练数据和测试数据可能满足不同的数据分布,从而对传统的分类算法带来挑战。近几年,跨领域分类被提出来解决上述问题。跨领域分类的目标是利用原数据分布(源领域)下的训练数据来帮助在新数据分布(目标领域)下训练分类器,并对目标领域数据进行分类预测。在本文中,基于迁移学习、主动学习、主题模型等技术对跨领域分类算法进行了研究。研究工作主要包括:1)提出了基于领域潜在主题相关性挖掘的跨领域文本分类算法(Topic Correlation Analysis,TCA)。在多个标准数据集上的实验结果表明,TCA算法与最新的跨领域分类算法相比取得了超过3%的分类准确度提升。2)提出了新的多领域主动学习问题。与传统主动学习问题不同,多领域主动学习研究的是如何从多个领域中选择全局最优数据进行标注,从而节约人力标注资源。针对该问题,本文提出了一个基于支持向量机全局最优化的多领域主动学习算法(Multi-Domain Active Learning,MultiAL),并结合三个重要的分类应用对提出的算法进行了实验验证。结果表明,MultiAL算法与传统主动学习算法相比能够节约至少30%的新标注训练数据数量。
其他文献
随着消费者对市场上产品品质的要求越来越高,导致产品在加工的过程中尺寸精度越来越严。很多企业在提升加工设备的同时,也对工艺参数予以了高度的重视,以提高自身的合格率,同时保
随着铝箔深加工企业对铝箔质量要求的提高,铝箔生产企业对铝箔毛料质量的要求也越来越高。要生产出高质量的铝箔,必须保证铝箔毛料的质量。铝箔毛料的质量主要由它的熔铸质量决
丙酮探测气敏传感器不仅在化工安全生产起着重要作用,而且可以测试人体呼出的丙酮含量,对高血糖患者进行筛查和无痛监测管理。此外,还可应用于食品工业发酵控制。所以研究开
为满足深层页岩气地层特征对大型压裂施工使用滑溜水的造缝、耐温、减阻性能技术要求,通过改进聚合物分子结构以提高减阻剂的减阻性能,同时引入刚性基团提高减阻剂的耐温性能
"中庸之道"的核心就是"致中和",达到这一境界通常有三种方式,即叩其两端、执两用中的"中"道,适而中度、恰如其分的"度"道,知情而变、因地制宜的"权"道。当前,改革开放进入深
由于冲压工艺具有生产效率高、质量稳定、成本低以及可加工复杂形状等一系列优点,在机械行业的应用非常广泛,占有十分重要的地位。但是冲压模具的设计主要依据工程师长期积累的
<正> 企业财务形象是企业形象的重要构成之一,是企业经营情况及理财水平的集中反映,是企业财务管理诸要素及其质量状况的综合表现。在社会主义市场经济条件下,面对复杂多变的
目前市政排水与水利排涝设计标准仍无规范统一的方法,为保证设计重现期内的暴雨能够顺利地排出,构建两者的衔接关系十分必要。采用广州市长序列降雨资料构建长短历时降雨量的
<正>货币资金在企业资产中处于流动性最强、控制风险最大的地位,是企业开展正常生产经营活动不可缺少的"血液"。为了堵塞货币资金收支过程中发生漏洞,就必须不断完善货币资金
随着科技发展,人民生活水平的提高,人们对居住条件的安全性、舒适性的要求也越来越高。室内热湿环境作为影响居住条件舒适性的一个关键因素已经受到人们一定关注。采用主动式方