论文部分内容阅读
目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补,通过均方根误差(NRMSE)和聚类准确率(F值)两个指标来评估不同方法的填补效能和聚类效果,并用模拟数据集进行测试和乳腺癌数据集进行验证。结果随着缺失比例的增加,四种填补方法的NRMSE都逐渐上升;任意缺失比例下,相比于其他三种方法非参缺失森林填补法的填补优势明显。缺失比例为5%、10%、2