【摘 要】
:
随着基因采样技术的发展,人们已可以低成本地获取大量不同生物的基因信息,这些数据称为基因表达数据。通常情况下,这些基因信息以矩阵形式储存,即基因表达矩阵,它具有数据维度超高而样本稀疏的特点。传统的聚类算法处理这类数据时表现不佳。双聚类算法是在此背景下出现的一类高效分析基因表达矩阵的新方法。通过同时考虑矩阵的行列关系,可以获得矩阵内部更为复杂的信息。此前学者根据对基因表达矩阵内部隐含结构的不同假设,提
论文部分内容阅读
随着基因采样技术的发展,人们已可以低成本地获取大量不同生物的基因信息,这些数据称为基因表达数据。通常情况下,这些基因信息以矩阵形式储存,即基因表达矩阵,它具有数据维度超高而样本稀疏的特点。传统的聚类算法处理这类数据时表现不佳。双聚类算法是在此背景下出现的一类高效分析基因表达矩阵的新方法。通过同时考虑矩阵的行列关系,可以获得矩阵内部更为复杂的信息。此前学者根据对基因表达矩阵内部隐含结构的不同假设,提出了不同的双聚类算法。然而,目前主流的双聚类算法普遍存在三个方面的问题:1:较高的计算复杂度;2:对噪声敏感。3:无法在迭代过程中显式利用上一轮迭代的计算结果;本文主要围绕这三方面问题开展研究。针对问题1和2,本文提出了一种基于奇异值分解(SVD)的预处理方法。该方法利用了 SVD对矩阵行列聚类信息的分离能力和对噪声的抑制特性,一方面通过矩阵的行列信息分离,将双聚类问题降级为普通的一维聚类问题,避免迭代计算,从而降低计算复杂度;另一方面通过基于SVD的低秩重建来降低矩阵内部噪声,从而提升聚类性能。实验结果表明,该预处理具有极好的算法兼容性,可以稳定提升各种双聚类算法在不同噪声条件下的聚类精确度。针对问题3,本文提出了多采样聚类,并在多采样聚类的基础上建立了一种新的双聚类算法。该算法可以显式利用上一轮迭代的聚类信息从而提升聚类精度。此外,因为多采样数据结构在现实生活中广泛存在,除了辅助建立谱双聚类算法,多采样聚类算法本身也可以应用在推荐系统、生产管理、服务器集群构建、天气预报等领域。最后,本文在人工数据集和肺癌基因数据集上对所提方法进行了实验,实验结果表明,相比于此前主流的双聚类算法,本文算法可以在降低计算复杂度的同时显著提升聚类精度。这为未来人们更加高效精确地识别基因表达矩阵中的信息做出了贡献。
其他文献
近年来随着我国航天事业的飞速发展,由于航天产品造价昂贵,可重复利用率差等因素的存在,使得检测活动多余物的技术愈来愈重要。活动多余物产生主要是生产过程不规范,工人操作不当等原因生成的,多余物的存在可能会导致整个产品失效。而航天产品的一个重要指标就是可靠性,所以活动多余物的检测成为亟待解决的问题。本课题在此背景下,提出了检测活动多余物材质的算法。首先,借助基于微粒碰撞噪声检测法(Particle Impact Noise Detection,PIND)方法的活动多余物检测装置
随着航天器功能的多样化和高性能化、航天器的总功率越来越高以及电子设备越来越小,目前的微型航天器已经进入了一个新的发展时代。柔性互连技术中柔性互连电路的任意扭曲实现了器件级设计的高密度化,加上与控制板的有机融合,形成了一体化的产品,达到了对航天器有限空间的高度利用。立体柔性互连技术提供了用柔性绝缘基材制成的柔性互连电路满足了大电流高密度小型化耐宇航环境的电子产品需求。柔性互连技术是未来电子产品制造的
本文以企业实际生产中数据采集控制系统为研究背景,提出了基于STM32单片机的数据采集控制系统的设计。使用计算机实现对现场机器运行状态的实时监测和控制,不仅有效地减小了控制系统的成本和功耗,提高了系统的可靠性,同时将以太网引入现场控制领域。本文主要对硬件电路和嵌入式程序进行了研究和设计。本文根据系统需求,设计了DI、DO、AI、AO四块电路板。硬件电路主要包括单片机控制模块、数据采集与处理模块、数据
目前,地理信息系统(Geographical Information Systems,GIS)应用广泛,在交通导航、地理信息检索以及农业、林业资源管理等领域做出巨大贡献。矢量地理数据作为GIS的基础数据,具有巨大经济价值,一旦发生篡改,会使信息数据的所有者、使用者产生重大的损失。脆弱水印技术在图像认证方面具有独特优势,应用脆弱水印技术解决矢量地理数据的安全性问题是当前新兴研究热点。合谋攻击是一种常
上市公司在股票交易市场中的股价很容易受到各种事件的影响,投资者进行事件检测可以帮助人们及时识别伴随这些事件的投资风险和机会。金融事件体系往往呈现为层级结构,在实际应用中可以用树形结构来表示这些事件,因此本文将金融事件检测问题建模为一个层级多标签文本分类问题,其中每个事件就是一条从根结点到目标节点的序列标签。常规的层级多标签文本分类方法通常会忽略事件层级间存在的依赖关系,将每个事件都视为独立的个体,
解决台湾问题、实现祖国完全统一,事关维护国家主权和领土完整,是中华民族根本利益所在,是全体中华儿女的共同心愿,是中国共产党矢志不渝的历史任务。我们党为此进行了不懈奋
软件测试是保证软件质量的重要环节。设计测试用例是测试的重要步骤。现有的自动化测试工具,例如c++test、Testbed并不能生成满足关键领域软件要求的测试用例,在单元测试中大部分测试用例仍依赖测试人员手动设计。然而,对于复杂程序,手工设计的测试用例难以达到关键领域软件的覆盖准则要求。因此,为了提高测试质量、降低测试成本,对修正条件判定覆盖(Modified Condition/Decision
近年来,伴随着5G、物联网、人工智能、云计算等技术的发展和应用,分布式优化算法受到越来越多的关注。与传统集中式算法不同的是,分布式优化算法不需要将所有数据收集到云端
随着第四次工业革命开始,数字经济快速崛起。在原有智能电网的基础上,电网的发展越发注重以数据为生产要素,促使电网向数字电网发展。数字电网要求实时监测设备的运行状态,建立基于监测数据的故障数据库,从而实现故障判断和寿命预测。而对于交流真空接触器的运维工作,无论是国外还是国内,尚无通用的运维监测装置标准产品,各研究机构或制造厂家多根据不同的交流真空接触器以及用户的需求来进行研究和开发,更没有成套的运维策
蓝宝石(α-Al_2O_3)是一种典型的硬脆材料,具有硬度高、熔点高、透光性好、化学性能稳定等的优良物理化学性能。蓝宝石晶片广泛应用于LED芯片、衬底材料等各种光电器件,超精密磨削以效率高、高可控性的优点越来越多的应用于蓝宝石晶片平坦化加工过程。蓝宝石晶片作为衬底其减薄工艺在LED芯片制造工程中是关键制程之一,为避免在减薄损伤,要求尽量降低加工表面粗糙度和表层残余应力,减小晶片翘曲变形,本文对磨削