首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 53 毫秒
1.
线性特征选择方法可提升定量构效关系(QSAR)模型的预测能力,但易忽略特征(理化属性)与分子活性间的非线性关系。本文提出基于支持向量回归(SVR)的逐步非线性回归(SSNR)特征选择算法并用于降血压药物血管紧张素转化酶(ACE)抑制肽的QSAR研究。首先以具有不同背景的5组分子描述符分别表征肽序列,以SSNR实施特征选择,再通过智能一致性模型(ICM)对各组描述符对应子模型的预测活性进行加权整合,获得最终活性预测值。在ACE抑制二肽与三肽两个数据上的应用结果表明,SSNR获得的特征子集结合ICM策略可有效提升模型预测能力(二肽的平均Q■为0.675±0.002,三肽为0.663±0.013),优于遗传算法-偏最小二乘(0.538±0.049、0.599±0.047)与逐步线性回归(0.583±0.041、0.675±0.010)。最后基于抑制活性已知肽序列预测所有活性未知肽的活性,分析了高活性肽及其氨基酸偏好性,为人工合成潜在高活性ACE抑制肽提供可能的序列组合。  相似文献   

2.
以自组建的血管紧张素转化酶(Angiotensin I-converting enzyme)抑制肽库为研究对象,采用氨基酸描述符SVHEHS(Scores vector of hydrophobic,electronic,hydrogen bonds and steric properties)对各肽样本进行结构表征后,进行自交叉协方差(Auto cross covariances,ACC)处理,并分别利用多元线性回归(Multiple linear regression,MLR)、偏最小二乘(Partial least square regression,PLS)、人工神经网络(Artificial neural networks,ANN)3种建模方法进行ACE抑制肽QSAR建模。结果显示,所得MLR、PLS与ANN模型的相关系数(Correlation coefficient,R2)分别为0.744、0.862、0.958,留一交叉验证相关系数(Leave-one-out cross-validated correlation coefficient,Q2LOO)分别为0.532、0.829、0.948,外部验证复相关系数(External validated correlation coefficient,Q2ext)分别为0.567、0.632、0.634。因此,SVHEHS结合上述3种建模方法均适用于ACE抑制肽的QSAR研究,其中ANN的建模效果最优。  相似文献   

3.
刘静  管骁  彭剑秋 《化学学报》2012,70(1):83-91
收集20种天然氨基酸的457种理化性质,按照疏水、电性特征、氢键贡献和立体特征分类后,对它们分别进行主成分分析(Principal component analysis,PCA),得到一个新的氨基酸残基结构描述符SVHEHS.用该描述符分别对血管紧张素转化酶(AngiotensinⅠconverting enzyme,ACE)抑制二肽、三肽、四肽进行序列表征,并用来与生物活性建立偏最小二乘(Partial least square regression,PLS)模型.ACE抑制二肽、三肽、四肽模型的相关系数、交叉验证相关系数、 均方根误差、外部验证相关系数分别为0.607,0.507,0.587,0.783;0.852,0.813,0.232,0.839;1,1,0,0.935.由此说明,采用SVHEHS描述符建立的PLS模型拟合、预测能力均较好,可用于血管紧张素转化酶抑制肽的定量构效关系研究.  相似文献   

4.
王华  陈波  姚守拙 《分析化学》2006,34(12):1674-1678
对20个ACEI化合物用量子化学方法进行结构优化并计算出10个参数,用9种不同隐含层节点数的BP神经网络研究了ACEI的定量构效关系,建立了节点为10/6/1的三层BP神经网络模型。结果表明:以量化理论计算所得参数可以构建合理的ACEI定量构效关系模型,神经网络模型M6的r2=0.995,S=0.050,6个验证集化合物的残差平方和为0.002,预测能力明显强于多元线形回归模型,亦优于同类文献报道,可作为ACEI研发领域中预测先导化合物活性的理论工具。  相似文献   

5.
采用20种天然氨基酸的47个information indices描述符、33个connectivity indices描述符和44个eigenvalue-based indices描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVICE.将其分别对三肽血管收缩素转化酶(ACE)、抗菌十八肽(AMP)、苦味活性二肽(BTT)序列表征后,建立结构与活性的SMR-MLR模型,并采用内外部双重验证的方法检验模型的稳定性.所建模型相关统计参量如下:复相关系数(Rcum2)、留一法(LOO)交互校验复相关系数(RCV2)和外部样本校验复相关系数(Qext2)分别为0.988,0.964,0.985;0.990,0.970和0.855;0.949,0.887,0.830.结果表明,运用SVICE描述符建立的MLR模型拟合、预测能力均较好,能较好解释肽类药物的活性与结构间的关系从而为新的强活性肽类药物的分子设计和改造提供了指导.  相似文献   

6.
从20种天然氨基酸的41个randic molecular profiles非零描述符、44个eigenvalue based indices非零描述符和47个walk and path counts非零描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVREW。将其应用于血管紧张素转化酶(ACE)抑制二肽和ACE抑制三肽、苦味二肽和苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的结构表征,应用多元线性回归(MLR)建立定量构效关系模型,同时采用内部与外部双重验证的方法验证模型的稳定性。所建ACE抑制二肽、ACE抑制三肽、苦味二肽、苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的模型复相关系数(R2cum)分别为0.994,0.797,0.948,0.878,0.686,0.720;留一法交互校验复相关系数(R2cv)分别为0.955,0.859,0.879,0.958,0.796,0.843;外部样本校验相关系数(Q2ext)分别为0.990,0.954,0.890,0.950,0.748,0.773。经研究表明SVREW描述符用于肽分子结构表征所建模型的稳定性与预测能力均较好,有望成为多肽定量构效关系研究中一种有效的结构表征方法,可对新药物的发现和研究提供指导。  相似文献   

7.
刘静  管骁  彭剑秋 《分析测试学报》2012,31(10):1260-1265
通过对天然氨基酸的457种物化性质参数进行主成分分析后得到SVHEHS描述符,用该描述符分别对血管紧张素转化酶(ACE)抑制二肽、三肽、四肽进行表征,并建立了肽结构与活性的神经网络模型。ACE抑制二肽神经网络模型的相关系数、交叉验证相关系数、均方根误差和外部验证相关系数分别为0.946、0.951、0.249、0.852,三肽模型分别为0.973、0.945、0.135、0.813,四肽模型分别为0.915、0.879、0.250、0.814。由此表明SVHEHS描述符结合神经网络对ACE抑制肽的建模效果及模型预测能力均较理想,在此基础上进一步通过平均影响值(Mean impact value,MIV)法确定了显著影响各类肽活性的结构因素,从而为新的强活性ACE抑制肽的分子设计提供了理论基础。  相似文献   

8.
选用60个结构多样的HCV复制抑制剂分子作为数据集,随机选择其中46个分子作为训练集,剩余14个分子作为验证集.采用多元线性回归(MLR)和主成分分析(PCA)方法对每个分子的646个理化和结构参数进行了线性回归分析,并分别建立各自的最优模型.结果表明MLR中的逐步和向前法所建模型最佳,模型结果为:训练集R2=0.827,验证集R2=0.850,模型能够直观地反映影响化合物活性的主要因素.该模型将有助于筛选和开发新的HCV复制抑制.  相似文献   

9.
综合运用量子化学方法及基团贡献法,采集了78种不同化学结构聚酰亚胺的结构参数.采用通径分析法从16种参数中筛选出了对介电常数具有显著影响的8种结构参数,在此基础上,构建了2种针对聚酰亚胺介电常数的定量构效关系模型,平均相对误差均在10%以内.研究认为影响聚酰亚胺薄膜介电常数的最重要因素为分子体积,从宏观角度来看即体系的...  相似文献   

10.
11.
一种新三维氨基酸描述子SVTD及在肽QSAR的应用   总被引:1,自引:0,他引:1  
  相似文献   

12.
万金玉  刘怡飞 《化学通报》2019,82(10):926-936
随着有机磷化合物(OPs)的广泛应用,其在越来越多的环境介质中被检测出来。大多数OPs具有毒性,但人们缺乏快速且有效的预测手段来对毒性进行评估。本文将结合E-Dragon软件计算的分子描述符,采用不同的QSAR模型对36个OPs的毒性进行预测。文中采用后退法作为描述符筛选方法,以均方根误差(RMSE)作为评价标准,共找到14个对线性核函数支持向量机(SVM)模型贡献较大的描述符;在最终得到的SVM模型交叉验证结果中,计算值与实际值的相关系数为0. 913,均方根误差为0. 388;外部测试验证结果中,平均相对误差为9. 10%。此外,采用多元线性回归(MLR)、人工神经网络(ANN)以及偏最小二乘回归(PLS)模型对OPs的毒性进行预测,交叉验证结果显示,三个模型的计算值与实际值的相关系数分别为0. 878、0. 686与0. 620,没有SVM模型的预测能力好。因此采用线性核函数的SVM模型对OPs进行毒性预测是一个行之有效的方法。  相似文献   

13.
In the current study, robust boosting partial least squares (RBPLS) regression has been proposed to model the activities of a series of 4H-1,2,4-triazoles as angiotensin II antagonists. RBPLS works by sequentially employing PLS method to the robustly reweighted versions of the training compounds, and then combing these resulting predictors through weighted median. In PLS modeling, an F-statistic has been introduced to automatically determine the number of PLS components. The results obtained by RBPLS have been compared to those by boosting partial least squares (BPLS) repression and partial least squares (PLS) regression, showing the good performance of RBPLS in improving the QSAR modeling. In addition, the interaction of angiotensin II antagonists is a complex one, including topological, spatial, thermodynamic and electronic effects.  相似文献   

14.
氨基酸结构描述子矢量VHSE及其在肽QSAR中的应用   总被引:8,自引:0,他引:8  
从20种天然氨基酸的50个物化性质出发,按照疏水、立体和电性特征将其分类后分别进行主成分分析,并将产生的得分矢量即VHSE(principal component score vector of hydrophilicity,steric,and electronic properties)作为氨基酸结构描述子用于肽的定量构效关系研究。与已有方法相比,VHSE描述子具有物化意义明确、结果更易解释等特点。应用该描述子并结合逐步回归变量筛选和偏最小二乘建模方法,在对苦味二肽和血管舒缓激肽促进剂等体系的定量构效关系研究中,均取得了优于已有文献的结果。  相似文献   

15.
基于岭回归和SVM的高维特征选择与肽QSAR建模   总被引:1,自引:0,他引:1  
岭回归估计权重绝对值在一定程度上体现了对应特征作用大小, 据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法. 对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9 肽两个肽体系, 以氨基酸的531 个物理化学性质参数直接表征肽结构, 各获得1062、4779 个初始特征; 对训练集, 初始特征以岭回归排序后序贯引入, 当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止, 最后以多轮末尾淘汰进一步精筛, 分别获得7、18个物理化学意义明确的保留特征. 基于保留特征与支持向量回归(SVR), 对训练集建立定量构效关系(QSAR)模型, 预测独立测试集, 其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果. 新方法运行速度快, 选取的特征物理化学意义明确, 解释性强, 在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景.  相似文献   

16.
基于地统计学与支持向量回归的QSAR建模   总被引:4,自引:0,他引:4  
基于主成分分析(PCA)、地统计学(GS)和支持向量回归(SVR), 提出了一种新的定量构效关系(QSAR)个体化预测方法——Weight-PCA-GS-SVR. 其基本思路是: 先以PCA降维并消除自变量间的信息冗余, 继以SVR经非线性主成分筛选去除与因变量无关的主成分, 再以保留主成分计算样本间的加权距离, 然后以高维GS确定公用变程; 每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有k个近邻, 以SVR训练建模完成个体化预测. Weight-PCA-GS-SVR从行、列两个方向对模型进行了优化, 为自变量提供了一种新的加权方法, 为解决最优k近邻选择难题提供了新的思路, 并具有SVR原来的优点. 经3个化合物活性实例数据集验证, 新方法在所有参比模型中预测精度最高, 且明显优于文献报道结果, Weight-PCA-GS-SVR在QSAR等回归预测领域有较广泛的应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号