加权抽样对相似性学习算法的改进效果研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:sqlservermaintenance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今诸多聚类算法需要通过计算样本间距离来得到样本相似性。因此对这类算法而言,距离的计算方法尤为重要。对部分现有距离度量学习或相似性学习算法进行研究后可以发现,多数算法在选择学习样本的过程中,都采用了重复随机抽样的方式。这一抽样方式使所有训练节点都有均等概率用于度量或相似性学习,但因样本位置不同,对分类算法而言样本的分类难度也不同。如果能针对较难分类的样本进行着重学习,并适当减少对易分类点的学习时间,便能提高学习过程的效率性,减少学习过程的时间。节约时间成本,在大数据时代有不容忽视的意义。
其他文献
异构计算是高性能计算技术的发展趋势,计算任务与体系结构匹配成为异构计算亟待解决的问题。重构技术为实现两者匹配带来了契机,要么任务重构适应体系结构,要么体系结构重构适应
针对射频识别(RFID)数据与上层应用需求之间存在的信息鸿沟及其需要实时处理的特征,提出了一种完备数据流的不确定数据择优算法。分析了常规粒子滤波方法存在的不足之处,采用基
随着软件的日益复杂,如何从巨大的可用测试用例空间中选择少量的测试用例进行有效的测试,成为了软件测试的重要课题之一。给出了一种易于自动化实现的软件测试用例生成方法。
基于自适应滑动窗口清洗算法SMURF(Statistical sMoothing for Unreliable RFid data)需要手动输入阈值δ,对于静态标签,δ的取值对平滑结果几乎没有影响;对于动态标签,结果会造成巨大的误差。针对以上的缺点,提出一种基于动态标签的RFID不确定性数据清洗算法DSUMRF(Dynamic tags-based SMURF)。另外,SMURF算法主要考虑RFI
针对目前不确定XML小枝模式查询需要存储大量中间结果和归并中间结果的情况,提出一种非归并不确定XML小枝模式查询算法ProTwigList。该算法查询之前通过Tagq-Level流进行剪枝,
对现有NHPP类软件可靠性模型进行分析总结,指明了已有NHPP类软件可靠性模型存在的不足及缺陷。综合考虑缺陷探测率、软件运行覆盖率、排除错误时的错误引入率等软件故障数的
为了确保软件演化过程的正确性,有必要对软件演化所涉及的软件过程进行结构合理性研究,以提高软件演化的质量和效率、缩短软件演化的周期。针对EPMM建模产生的软件演化过程模