首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
为提高小样本定量构效关系(QSAR)预测精度,基于支持向量机全局核函数与局部核函数提出了一种新的建模方法:先依不同核函数筛选描述符,再依保留描述符构建支持向量机回归(SVR)子模型.子模型预测活性值与实验值组成混合样本.以均方误差(MSE)最小为原则,对混合样本再次基于SVR实施核函数寻优与子模型筛选,基于最优核函数和保留子模型以留一法完成预测.对2个小样本体系的QSAR研究表明,该方法兼具局部核函数和全局核函数的优点,既有较强的学习能力,又有较好的推广能力,预测精度高,稳定性好.  相似文献   

2.
Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用   总被引:1,自引:0,他引:1  
为深入认识含氟农药生物活性与其结构之间的关系, 建立了理想的QSAR模型, 从化合物油水分配系数等7个分子结构描述符出发, 基于支持向量回归(SVR)和MSE最小原则, 经自动寻找最优核函数和非线性筛选描述符, 构建了多个K-最近邻(KNN)预测子模型. 再经非线性筛选获得保留子模型, 以保留子模型实施组合预测(Multi-KNN-SVR). 33种含氟化合物对5种不同病害生物活性的留一法组合预测结果表明, 采用非线性筛选描述符和KNN子模型能有效地提高预测精度, 基于多个KNN子模型的非线性组合能进一步提高预测性能. Multi-KNN-SVR组合预测在QSAR以及其它相关预测研究中具有广泛应用前景.  相似文献   

3.
基于地统计学与支持向量回归的QSAR建模   总被引:4,自引:0,他引:4  
基于主成分分析(PCA)、地统计学(GS)和支持向量回归(SVR), 提出了一种新的定量构效关系(QSAR)个体化预测方法——Weight-PCA-GS-SVR. 其基本思路是: 先以PCA降维并消除自变量间的信息冗余, 继以SVR经非线性主成分筛选去除与因变量无关的主成分, 再以保留主成分计算样本间的加权距离, 然后以高维GS确定公用变程; 每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有k个近邻, 以SVR训练建模完成个体化预测. Weight-PCA-GS-SVR从行、列两个方向对模型进行了优化, 为自变量提供了一种新的加权方法, 为解决最优k近邻选择难题提供了新的思路, 并具有SVR原来的优点. 经3个化合物活性实例数据集验证, 新方法在所有参比模型中预测精度最高, 且明显优于文献报道结果, Weight-PCA-GS-SVR在QSAR等回归预测领域有较广泛的应用前景.  相似文献   

4.
基于支持向量机的高维特征非线性快速筛选与肽QSAR建模   总被引:1,自引:0,他引:1  
以氨基酸的531个物理化学性质参数直接表征肽的结构, 基于支持向量回归发展了一种新的高维特征非线性快速筛选方法, 将其应用于苦味二肽和血管紧张素转化酶抑制剂2个肽体系的定量序效关系(QSAR)建模, 各筛选获得10个意义明确的保留描述子. 以保留描述子建立支持向量回归模型, 其拟合精度、留一法交叉测试精度和外部预测精度较文献报道结果均有较大幅度提升, 优势明显; 对所建模型进行了非线性回归显著性测验、单因子相对重要性显著性测验和单因子效应分析, 增强了模型的可解释性. 新方法在肽、蛋白质QSAR建模等高维数据回归预测领域有广泛应用前景.  相似文献   

5.
基于岭回归和SVM的高维特征选择与肽QSAR建模   总被引:1,自引:0,他引:1  
岭回归估计权重绝对值在一定程度上体现了对应特征作用大小, 据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法. 对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9 肽两个肽体系, 以氨基酸的531 个物理化学性质参数直接表征肽结构, 各获得1062、4779 个初始特征; 对训练集, 初始特征以岭回归排序后序贯引入, 当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止, 最后以多轮末尾淘汰进一步精筛, 分别获得7、18个物理化学意义明确的保留特征. 基于保留特征与支持向量回归(SVR), 对训练集建立定量构效关系(QSAR)模型, 预测独立测试集, 其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果. 新方法运行速度快, 选取的特征物理化学意义明确, 解释性强, 在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景.  相似文献   

6.
丛湧  薛英 《物理化学学报》2013,29(8):1639-1647
对89 个苯并异噻唑和苯并噻嗪类丙型肝炎病毒(HCV) NS5B聚合酶非核苷抑制剂进行了定量构效关系(QSAR)研究. 采用遗传算法组合偏最小二乘(GA-PLS)和线性逐步回归分析(LSRA)两种特征选择方法选择最优描述符子集, 然后建立多元线性回归和偏最小二乘线性回归模型. 并首次尝试使用遗传算法耦合支持向量机方法(GA-SVM)对两种特征选择方法所选的描述符子集分别建立非线性支持向量机回归模型. 三种机器学习方法所建模型均得到比较满意的预测效果. 采用LSRA所选的6 个描述符建立的三个QSAR模型对于测试集的相关系数为0.958-0.962, GA-SVM法给出最好的预测精度(0.962). 采用GA-PLS所选的7个描述符建立的三个QSAR模型对于测试集的相关系数为0.918-0.960, 偏最小二乘回归模型的结果最好(0.960). 本工作提供了一种有效的方法来预测丙型肝炎病毒抑制剂的生物活性, 该方法也可以扩展到其他类似的定量构效关系研究领域.  相似文献   

7.
线性特征选择方法可提升定量构效关系(QSAR)模型的预测能力,但易忽略特征(理化属性)与分子活性间的非线性关系。本文提出基于支持向量回归(SVR)的逐步非线性回归(SSNR)特征选择算法并用于降血压药物血管紧张素转化酶(ACE)抑制肽的QSAR研究。首先以具有不同背景的5组分子描述符分别表征肽序列,以SSNR实施特征选择,再通过智能一致性模型(ICM)对各组描述符对应子模型的预测活性进行加权整合,获得最终活性预测值。在ACE抑制二肽与三肽两个数据上的应用结果表明,SSNR获得的特征子集结合ICM策略可有效提升模型预测能力(二肽的平均Q■为0.675±0.002,三肽为0.663±0.013),优于遗传算法-偏最小二乘(0.538±0.049、0.599±0.047)与逐步线性回归(0.583±0.041、0.675±0.010)。最后基于抑制活性已知肽序列预测所有活性未知肽的活性,分析了高活性肽及其氨基酸偏好性,为人工合成潜在高活性ACE抑制肽提供可能的序列组合。  相似文献   

8.
以非氢原子自身及非氢原子之间的关系为分子结构描述符,对35个醛酮类化合物进行了结构表征。采用多元线性回归和偏最小二乘回归的方法建立了该类化合物结构与色谱保留指数之间的关系模型,两模型的复相关系数(R)分别为0.987和0.981,标准偏差(SD)分别为25.259和32.240。采用"留一法"交互检验和外部样本预测的方法对模型的稳健性和预测能力进行了评价,交互检验的复相关系数(RCV)分别为0.981和0.958,标准偏差(SDCV)分别为34.292和39.652;外部预测的复相关系数(Rtest)分别为0.991和0.990,标准偏差(SDtest)分别为25.749和26.776。结果表明所构建的分子结构描述符能够恰当表现该类化合物结构特征,所建模型具有良好的稳健性和预测能力。  相似文献   

9.
机器学习方法用于建立乙酰胆碱酯酶抑制剂的分类模型   总被引:1,自引:0,他引:1  
我们构建了表征乙酰胆碱酯酶抑制剂分子组成、电荷、拓扑、几何结构及物理化学性质等特征的1559个描述符,通过Fischer Score排序过滤和Monte Carlo模拟退火法相结合进行变量筛选得到37个描述符,然后分别用支持向量学习机(SVM)、人工神经网络(ANN)和k-近邻(k-NN)等机器学习方法建立了乙酰胆碱酯酶抑制剂的分类预测模型.对于训练集的515个样本,通过五重交叉验证,各机器学习方法对正样本,负样本和总样本的平均预测精度分别为87.3%-92.7%,67.0%-81.0%和79.4%-88.2%;通过y-scrambling方法验证SVM模型是否偶然相关,结果正样本,负样本和总样本的平均预测精度分别为72.7%-82.5%,41.0%-53.0%和62.1%-69.1%,明显低于实际所建模型的预测精度,表明所建模型不存在偶然相关;对172个没有参与建模的外部独立测试样本,各机器学习方法对正样本,负样本和总样本的预测精度分别为93.3%-100.0%,74.6%-89.6%和86.1%-95.9%.所建模型中,SVM模型预测精度最好,且明显高于其它文献报道结果.  相似文献   

10.
折叠速率预测对阐明蛋白质折叠机理意义重大.本文收集了115条目前已知折叠速率的蛋白质样本(包括二态、多态和混态蛋白),为了较全面地表征蛋白质分子的一级结构信息,提取序列长度、氨基酸残基多尺度组分、成对残基k-space特征与基于残基物理化学性质的地统计学关联总共9357维特征.经改进的二元矩阵重排过滤器和多轮末尾淘汰非线性筛选,获得23个物理化学意义明确的保留特征,建立的非线性支持向量回归模型Jackknife交叉验证的相关系数R=0.95,优于文献报道及其他参比特征选择方法.支持向量回归解释体系表明折叠速率与保留描述符的非线性回归极显著,分析了各保留描述符对折叠速率的影响,结果表明蛋白质折叠速率与序列长度、中短程关联特征、三联体残基组份特征等密切相关.  相似文献   

11.
We describe the application of particle swarms for the development of quantitative structure-activity relationship (QSAR) models based on k-nearest neighbor and kernel regression. Particle swarms is a population-based stochastic search method based on the principles of social interaction. Each individual explores the feature space guided by its previous success and that of its neighbors. Success is measured using leave-one-out (LOO) cross validation on the resulting model as determined by k-nearest neighbor kernel regression. The technique is shown to compare favorably to simulated annealing using three classical data sets from the QSAR literature.  相似文献   

12.
13.
14.
15.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号