特征筛选对抗肿瘤药物识别的影响研究 |
| |
引用本文: | 钟彩,杨亚鑫,王璟德,孙巍.特征筛选对抗肿瘤药物识别的影响研究[J].化学研究与应用,2022(10):2350-2356. |
| |
作者姓名: | 钟彩 杨亚鑫 王璟德 孙巍 |
| |
作者单位: | 北京化工大学化学工程学院 |
| |
基金项目: | 国家自然科学基金项目(21878012)资助; |
| |
摘 要: | 基于不同的机器学习方法探索识别抗肿瘤药的合适的特征筛选方法。收集了200个抗肿瘤药和600个非抗肿瘤药,形成三组不同的平衡数据集。采用斯皮尔曼系数与谷本系数计算的相关性矩阵与6个特征重要性指标结合进行相关性特征筛选。筛选后的数据集使用自适应提升树、随机森林、支持向量机进行分类。基于三个平衡数据集,采用的特征筛选方法对不同的机器学习方法获得的评价指标均有不同程度的提升。特别是自适应提升树,与其他筛选操作相比,至少有一种改进的特征筛选方法提升了六个评价指标的所得值。根据三个数据集的结果分析,重要性指标中整体方差和信息熵表现得更好,为将来的抗肿瘤药物识别提供一定的参考。
|
关 键 词: | 特征筛选 相关矩阵 重要性指标 分子指纹 机器学习 |
|
|