论文部分内容阅读
目的基于基因表达数据,通过机器学习的方法构建模型鉴别前列腺癌。方法下载前列腺癌和前列腺正常组织的RNA测序数据,进行数据过滤并分析差异表达基因,选择关键基因、建立模型并验证模型效能。验证决策树、随机森林、KNN近邻、逻辑回归和支持向量机这5个模型在默认参数下的性能并选取具有较高检验效能的模型进行优化。结果在5个模型中随机森林的检验效能最高,决策树次之。优化之后的随机森林模型鉴别前列腺癌的准确度为94%,受试者工作(ROC)曲线下面积为0.94。结论通过基因表达数据构建机器学习模型能够较好地预测前列腺癌。