首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 78 毫秒
1.
为提高小样本定量构效关系(QSAR)预测精度,基于支持向量机全局核函数与局部核函数提出了一种新的建模方法:先依不同核函数筛选描述符,再依保留描述符构建支持向量机回归(SVR)子模型.子模型预测活性值与实验值组成混合样本.以均方误差(MSE)最小为原则,对混合样本再次基于SVR实施核函数寻优与子模型筛选,基于最优核函数和保留子模型以留一法完成预测.对2个小样本体系的QSAR研究表明,该方法兼具局部核函数和全局核函数的优点,既有较强的学习能力,又有较好的推广能力,预测精度高,稳定性好.  相似文献   

2.
支持向量机分类和回归用于肽的QSAR研究   总被引:4,自引:0,他引:4  
周鹏  曾晖  李波  周原  李志良 《化学通报》2006,69(5):342-346
使用支持向量机技术对两类肽化合物体系进行了分类和回归研究,并将其系统地与K最邻近法、多元线性回归、偏最小二乘、人工神经网络进行了比较。结果表明,对于小样本、非线性问题,支持向量机具有较强的稳定性能及泛化能力,在大多数情况下能够得到优于传统方法的建模效果。对于分类问题,支持向量机对训练集和测试集都达到了100%的分类正确率;对于回归问题,支持向量机虽对训练集样本拟合效果略低于人工神经网络,但对外部测试集却表现出较强的预测能力。  相似文献   

3.
基于岭回归和SVM的高维特征选择与肽QSAR建模   总被引:1,自引:0,他引:1  
岭回归估计权重绝对值在一定程度上体现了对应特征作用大小, 据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法. 对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9 肽两个肽体系, 以氨基酸的531 个物理化学性质参数直接表征肽结构, 各获得1062、4779 个初始特征; 对训练集, 初始特征以岭回归排序后序贯引入, 当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止, 最后以多轮末尾淘汰进一步精筛, 分别获得7、18个物理化学意义明确的保留特征. 基于保留特征与支持向量回归(SVR), 对训练集建立定量构效关系(QSAR)模型, 预测独立测试集, 其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果. 新方法运行速度快, 选取的特征物理化学意义明确, 解释性强, 在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景.  相似文献   

4.
主成分分析-支持向量回归建模方法及应用研究   总被引:14,自引:5,他引:14  
将主成分分析(PCA)用于近红外光谱的特征提取,并与支持向量回归(SVR)相结合,实现了主成分分析-支持向量回归(PCA-SVR)用于近红外光谱定量分析的建模方法。与单纯的SVR方法相比,不仅提高了运算速度,而且提高了模型的预测准确度。将PCA-SVR方法用于烟草样品中总糖和总挥发碱含量的测定,所得结果的预测均方根误差分别为1.323和0.0477;回收率分别为91.8%~112.6%和88.9%~120.2%。  相似文献   

5.
线性特征选择方法可提升定量构效关系(QSAR)模型的预测能力,但易忽略特征(理化属性)与分子活性间的非线性关系。本文提出基于支持向量回归(SVR)的逐步非线性回归(SSNR)特征选择算法并用于降血压药物血管紧张素转化酶(ACE)抑制肽的QSAR研究。首先以具有不同背景的5组分子描述符分别表征肽序列,以SSNR实施特征选择,再通过智能一致性模型(ICM)对各组描述符对应子模型的预测活性进行加权整合,获得最终活性预测值。在ACE抑制二肽与三肽两个数据上的应用结果表明,SSNR获得的特征子集结合ICM策略可有效提升模型预测能力(二肽的平均Q■为0.675±0.002,三肽为0.663±0.013),优于遗传算法-偏最小二乘(0.538±0.049、0.599±0.047)与逐步线性回归(0.583±0.041、0.675±0.010)。最后基于抑制活性已知肽序列预测所有活性未知肽的活性,分析了高活性肽及其氨基酸偏好性,为人工合成潜在高活性ACE抑制肽提供可能的序列组合。  相似文献   

6.
基于支持向量机的高维特征非线性快速筛选与肽QSAR建模   总被引:1,自引:0,他引:1  
以氨基酸的531个物理化学性质参数直接表征肽的结构, 基于支持向量回归发展了一种新的高维特征非线性快速筛选方法, 将其应用于苦味二肽和血管紧张素转化酶抑制剂2个肽体系的定量序效关系(QSAR)建模, 各筛选获得10个意义明确的保留描述子. 以保留描述子建立支持向量回归模型, 其拟合精度、留一法交叉测试精度和外部预测精度较文献报道结果均有较大幅度提升, 优势明显; 对所建模型进行了非线性回归显著性测验、单因子相对重要性显著性测验和单因子效应分析, 增强了模型的可解释性. 新方法在肽、蛋白质QSAR建模等高维数据回归预测领域有广泛应用前景.  相似文献   

7.
应用启发式方法和支持向量机方法建立了70种药物与血浆蛋白结合率的定量构效关系模型, 研究了分子结构对药物与血浆蛋白结合率的影响. 两种方法均得到了较好的结果, 交互检验的相关系数平方分别为0.80和0.82; 通过对模型的稳定性和预测能力比较, 支持向量机建立的QSAR模型能够更好地预测药物与血浆蛋白结合率.  相似文献   

8.
Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用   总被引:1,自引:0,他引:1  
为深入认识含氟农药生物活性与其结构之间的关系, 建立了理想的QSAR模型, 从化合物油水分配系数等7个分子结构描述符出发, 基于支持向量回归(SVR)和MSE最小原则, 经自动寻找最优核函数和非线性筛选描述符, 构建了多个K-最近邻(KNN)预测子模型. 再经非线性筛选获得保留子模型, 以保留子模型实施组合预测(Multi-KNN-SVR). 33种含氟化合物对5种不同病害生物活性的留一法组合预测结果表明, 采用非线性筛选描述符和KNN子模型能有效地提高预测精度, 基于多个KNN子模型的非线性组合能进一步提高预测性能. Multi-KNN-SVR组合预测在QSAR以及其它相关预测研究中具有广泛应用前景.  相似文献   

9.
生物富集因子(BCF)是REACH法规要求的生物积累危害评价指标的关键参数,用实验的方法测定BCF值人力物力花费较大,而用计算的方法预测BCF值可以有效地替代昂贵的实验过程。该研究使用E-Dragon计算了数据集中每个分子的1 666种描述符,并用筛选后的描述符与lgBCF建立了QSAR模型:采用随机森林与支持向量机建立的分类预报模型,随机森林分类模型的准确率为0.89、敏感度为0.89;用基于准确率递减和基尼系数方法的随机森林分类模型筛选出对lgBCF值有重要影响的30个描述符,这些描述符包括ALOGPS_lgP、MATS6v、TPSA.NO.、GATS7v等;ALOGPS_lgP和ALOGPS_lgS是用支持向量机分类模型筛选出的对lgBCF值有重要影响的描述符。  相似文献   

10.
以有效塔板数作为二维色谱的柱效指标,根据二维色谱在不同影响因素(包括预柱柱温、主柱柱温、柱间压差和主柱间的放空量)下的有效塔板数实测数据集,应用基于粒子群算法(PSO)寻优的支持向量回归(SVR)方法,建立了二维色谱柱效的SVR预测模型,并与BP神经网络(BPNN)模型进行了比较.结果表明:基于相同的训练样本和检验样本,二维色谱的SVR模型的平均绝对百分误差(MAPE, 13.3%)比其BPNN模型的MAPE小4%;增加训练样本数有助于提高支持向量回归(SVR)模型的泛化性能;基于留一交叉验证法(LOOCV)的SVR模型预测的平均绝对误差(MAE, 196.79 m-1)和MAPE(1.6%)均为最小,明显优于BPNN模型(2397.98 m-1, 17.3%)或SVR模型(1849.95 m-1, 13.3%)的预测效果.因此,SVR是一种预测二维色谱柱效的有效方法.  相似文献   

11.
氨基酸结构描述子矢量VHSE及其在肽QSAR中的应用   总被引:8,自引:0,他引:8  
从20种天然氨基酸的50个物化性质出发,按照疏水、立体和电性特征将其分类后分别进行主成分分析,并将产生的得分矢量即VHSE(principal component score vector of hydrophilicity,steric,and electronic properties)作为氨基酸结构描述子用于肽的定量构效关系研究。与已有方法相比,VHSE描述子具有物化意义明确、结果更易解释等特点。应用该描述子并结合逐步回归变量筛选和偏最小二乘建模方法,在对苦味二肽和血管舒缓激肽促进剂等体系的定量构效关系研究中,均取得了优于已有文献的结果。  相似文献   

12.
折叠速率预测对阐明蛋白质折叠机理意义重大.本文收集了115条目前已知折叠速率的蛋白质样本(包括二态、多态和混态蛋白),为了较全面地表征蛋白质分子的一级结构信息,提取序列长度、氨基酸残基多尺度组分、成对残基k-space特征与基于残基物理化学性质的地统计学关联总共9357维特征.经改进的二元矩阵重排过滤器和多轮末尾淘汰非线性筛选,获得23个物理化学意义明确的保留特征,建立的非线性支持向量回归模型Jackknife交叉验证的相关系数R=0.95,优于文献报道及其他参比特征选择方法.支持向量回归解释体系表明折叠速率与保留描述符的非线性回归极显著,分析了各保留描述符对折叠速率的影响,结果表明蛋白质折叠速率与序列长度、中短程关联特征、三联体残基组份特征等密切相关.  相似文献   

13.
14.
将有机化合物中常见原子按元素周期表的族和杂化状态进行分类, 基于药物与受体相互作用的3类非键效应, 从分子空间立体结构出发得到了一种新型三维原子场全息作用矢量(3D-HoVAIF). 利用该矢量对几类典型药物体系进行了系统的QSAR研究, 结果表明, 3D-HoVAIF能够有效地提取药物分子的立体结构信息并与其生物活性呈良好线性关联.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号