首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 653 毫秒
1.
利用氨基酸结构描述符SVHEHS分别对血管紧张素转化酶(Angiotensin I-converting Enzyme,ACE)竞争性抑制二肽、三肽、四肽序列表征后,建立结构与活性的多元线性回归(MLR)模型。ACE抑制二肽模型的相关系数、交叉验证相关系数、均方根误差、外部验证相关系数分别为0.851、0.781、0.327、0.792;三肽模型分别为0.805、0.717、0.339、0.817;四肽模型分别为0.792、0.553、0.393、0.630。研究表明,运用该描述符建立的ACE抑制肽MLR模型拟合、预测能力均较好,能较好解释ACE抑制肽的活性与结构间的关系。  相似文献   

2.
刘静  管骁  彭剑秋 《化学学报》2012,70(1):83-91
收集20种天然氨基酸的457种理化性质,按照疏水、电性特征、氢键贡献和立体特征分类后,对它们分别进行主成分分析(Principal component analysis,PCA),得到一个新的氨基酸残基结构描述符SVHEHS.用该描述符分别对血管紧张素转化酶(AngiotensinⅠconverting enzyme,ACE)抑制二肽、三肽、四肽进行序列表征,并用来与生物活性建立偏最小二乘(Partial least square regression,PLS)模型.ACE抑制二肽、三肽、四肽模型的相关系数、交叉验证相关系数、 均方根误差、外部验证相关系数分别为0.607,0.507,0.587,0.783;0.852,0.813,0.232,0.839;1,1,0,0.935.由此说明,采用SVHEHS描述符建立的PLS模型拟合、预测能力均较好,可用于血管紧张素转化酶抑制肽的定量构效关系研究.  相似文献   

3.
刘静  管骁  彭剑秋 《分析测试学报》2012,31(10):1260-1265
通过对天然氨基酸的457种物化性质参数进行主成分分析后得到SVHEHS描述符,用该描述符分别对血管紧张素转化酶(ACE)抑制二肽、三肽、四肽进行表征,并建立了肽结构与活性的神经网络模型。ACE抑制二肽神经网络模型的相关系数、交叉验证相关系数、均方根误差和外部验证相关系数分别为0.946、0.951、0.249、0.852,三肽模型分别为0.973、0.945、0.135、0.813,四肽模型分别为0.915、0.879、0.250、0.814。由此表明SVHEHS描述符结合神经网络对ACE抑制肽的建模效果及模型预测能力均较理想,在此基础上进一步通过平均影响值(Mean impact value,MIV)法确定了显著影响各类肽活性的结构因素,从而为新的强活性ACE抑制肽的分子设计提供了理论基础。  相似文献   

4.
从20种天然氨基酸的41个randic molecular profiles非零描述符、44个eigenvalue based indices非零描述符和47个walk and path counts非零描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVREW。将其应用于血管紧张素转化酶(ACE)抑制二肽和ACE抑制三肽、苦味二肽和苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的结构表征,应用多元线性回归(MLR)建立定量构效关系模型,同时采用内部与外部双重验证的方法验证模型的稳定性。所建ACE抑制二肽、ACE抑制三肽、苦味二肽、苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的模型复相关系数(R2cum)分别为0.994,0.797,0.948,0.878,0.686,0.720;留一法交互校验复相关系数(R2cv)分别为0.955,0.859,0.879,0.958,0.796,0.843;外部样本校验相关系数(Q2ext)分别为0.990,0.954,0.890,0.950,0.748,0.773。经研究表明SVREW描述符用于肽分子结构表征所建模型的稳定性与预测能力均较好,有望成为多肽定量构效关系研究中一种有效的结构表征方法,可对新药物的发现和研究提供指导。  相似文献   

5.
卢永忠  康道乐 《化学通报》2016,79(5):466-469
安第斯病毒是汉坦病毒的一种,能引起汉坦病毒肺综合征,严重威胁人类的健康和生命安全,但目前尚缺乏有效的治疗办法,病毒抑制肽具有潜在的应用价值。本文利用多肽分子整体描述符,对一组安第斯病毒抑制肽进行定量构效关系(QSAR)研究,建立模型;并以模型为指导对多肽进行优化设计,以进一步提高其活性。结果表明,基于遗传算法-偏最小二乘算法建立的QSAR模型显示了较好的预测能力(R20.80,Q2ext0.58);依据模型设计出一组具有较高预测活性的多肽,为高活性抗病毒多肽的合成和实验验证打下了基础。  相似文献   

6.
丛湧  薛英 《物理化学学报》2013,29(8):1639-1647
对89 个苯并异噻唑和苯并噻嗪类丙型肝炎病毒(HCV) NS5B聚合酶非核苷抑制剂进行了定量构效关系(QSAR)研究. 采用遗传算法组合偏最小二乘(GA-PLS)和线性逐步回归分析(LSRA)两种特征选择方法选择最优描述符子集, 然后建立多元线性回归和偏最小二乘线性回归模型. 并首次尝试使用遗传算法耦合支持向量机方法(GA-SVM)对两种特征选择方法所选的描述符子集分别建立非线性支持向量机回归模型. 三种机器学习方法所建模型均得到比较满意的预测效果. 采用LSRA所选的6 个描述符建立的三个QSAR模型对于测试集的相关系数为0.958-0.962, GA-SVM法给出最好的预测精度(0.962). 采用GA-PLS所选的7个描述符建立的三个QSAR模型对于测试集的相关系数为0.918-0.960, 偏最小二乘回归模型的结果最好(0.960). 本工作提供了一种有效的方法来预测丙型肝炎病毒抑制剂的生物活性, 该方法也可以扩展到其他类似的定量构效关系研究领域.  相似文献   

7.
采用20种天然氨基酸的47个information indices描述符、33个connectivity indices描述符和44个eigenvalue-based indices描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVICE.将其分别对三肽血管收缩素转化酶(ACE)、抗菌十八肽(AMP)、苦味活性二肽(BTT)序列表征后,建立结构与活性的SMR-MLR模型,并采用内外部双重验证的方法检验模型的稳定性.所建模型相关统计参量如下:复相关系数(Rcum2)、留一法(LOO)交互校验复相关系数(RCV2)和外部样本校验复相关系数(Qext2)分别为0.988,0.964,0.985;0.990,0.970和0.855;0.949,0.887,0.830.结果表明,运用SVICE描述符建立的MLR模型拟合、预测能力均较好,能较好解释肽类药物的活性与结构间的关系从而为新的强活性肽类药物的分子设计和改造提供了指导.  相似文献   

8.
从20种天然氨基酸的41个randic molecular profiles、44个eigenvalue based indices和47个walk and path counts非零描述符分别进行主成分分析,得出一种新的氨基酸描述符——SVREW.将其应用于血管紧张素转化酶抑制三肽结构表征,应用多元线性回归(MLR)及偏最小二乘(PLS)建立定量构效关系模型,同时采用内部与外部双重验证的方法验证模型的稳定性.所建模型复相关系数(Rcum2)、留一法(LOO)交互校验相关系数(Rcv2)和外部样本校验相关系数(Qext2)分别为MLR(0.994,0.974,0.991),P LS(0.949,0.886,0.898).然后利用此多元线性回归方程设计出一系列血管紧张素转化酶抑制三肽化合物并预测了其活性,并且应用分子对接验证所设计药物的合理性.经研究表明SVREW描述符应用于ACE三肽结构表征所建模型的稳定性与预测能力均较好,有望成为多肽定量构效关系研究中一种有效的结构表征方法,并对新药物的发现和研究提供指导.  相似文献   

9.
以自组建的血管紧张素转化酶(Angiotensin I-converting enzyme)抑制肽库为研究对象,采用氨基酸描述符SVHEHS(Scores vector of hydrophobic,electronic,hydrogen bonds and steric properties)对各肽样本进行结构表征后,进行自交叉协方差(Auto cross covariances,ACC)处理,并分别利用多元线性回归(Multiple linear regression,MLR)、偏最小二乘(Partial least square regression,PLS)、人工神经网络(Artificial neural networks,ANN)3种建模方法进行ACE抑制肽QSAR建模。结果显示,所得MLR、PLS与ANN模型的相关系数(Correlation coefficient,R2)分别为0.744、0.862、0.958,留一交叉验证相关系数(Leave-one-out cross-validated correlation coefficient,Q2LOO)分别为0.532、0.829、0.948,外部验证复相关系数(External validated correlation coefficient,Q2ext)分别为0.567、0.632、0.634。因此,SVHEHS结合上述3种建模方法均适用于ACE抑制肽的QSAR研究,其中ANN的建模效果最优。  相似文献   

10.
随着大量分子描述符应用于QSAR/QSPR,如何筛选出具有良好稳定性和预测能力的描述符集,成为亟待解决的一个瓶颈问题.将63个有机化合物的1664个描述符经过初步预选后,利用偏最小乘(PLS)方法进行变量筛选,获得42个重要描述符;随机选择43个有机物,针对透聚乙烯膜性能进行训练研究,得优良估计能力和良好稳定性模型(A=6,r2=0.9647,RMSE=0.213,q2=0.8364,RMSV=0.467);对模型外部20个有机物进行预测,表明模型具有良好预测能力(rp2=0.9306,RMSP=0.326).PLS变量筛选法可以快速有效地筛选与活性密切相关的重要描述符,进而构建具有良好稳定性和预测能力的QSAR模型.  相似文献   

11.
基于SVR和k-近邻群的组合预测在QSAR中的应用   总被引:1,自引:0,他引:1  
为提高定量构效关系(QSAR)研究的预测精度,发展了一种新的基于支持向量机回归(SVR)非线性筛选分子结构描述符、基于k-近邻群的非线性组合预测方法.首先以均方误差(MSE)最小为原则,以留一法通过多轮末尾淘汰实施分子结构描述符的非线性SVR汰选并给出最优核函数和相应保留描述符;其次基于待测样本与训练样本保留描述符向量的欧氏距离,以不同k-近邻群子模型双重留一法预测值反映样本集的异质性;然后基于MSE最小,以留一法通过多轮末尾淘汰实施近邻群子模型的非线性SVR汰选并给出最优核函数和相应保留子模型;最后基于保留子模型以双重留一法实施组合预测.以取代苯胺和苯酚类化合物对大型溞的QSAR实例验证表明:新方法在所有参比模型中预测精度最高,且能更精细地反映描述符与化合物毒性间的非线性关系,具结构风险最小、非线性、适于小样本,能有效克服过拟合、维数灾和局极小,非线性筛选描述符和子模型,非线性组合预测,自动选择最优核函数及其相应参数,泛化推广能力优异、预测精度高等诸多优点,在QSAR研究中有广泛应用前景.  相似文献   

12.
基于支持向量机的高维特征非线性快速筛选与肽QSAR建模   总被引:1,自引:0,他引:1  
以氨基酸的531个物理化学性质参数直接表征肽的结构, 基于支持向量回归发展了一种新的高维特征非线性快速筛选方法, 将其应用于苦味二肽和血管紧张素转化酶抑制剂2个肽体系的定量序效关系(QSAR)建模, 各筛选获得10个意义明确的保留描述子. 以保留描述子建立支持向量回归模型, 其拟合精度、留一法交叉测试精度和外部预测精度较文献报道结果均有较大幅度提升, 优势明显; 对所建模型进行了非线性回归显著性测验、单因子相对重要性显著性测验和单因子效应分析, 增强了模型的可解释性. 新方法在肽、蛋白质QSAR建模等高维数据回归预测领域有广泛应用前景.  相似文献   

13.
14.
15.
基于岭回归和SVM的高维特征选择与肽QSAR建模   总被引:1,自引:0,他引:1  
岭回归估计权重绝对值在一定程度上体现了对应特征作用大小, 据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法. 对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9 肽两个肽体系, 以氨基酸的531 个物理化学性质参数直接表征肽结构, 各获得1062、4779 个初始特征; 对训练集, 初始特征以岭回归排序后序贯引入, 当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止, 最后以多轮末尾淘汰进一步精筛, 分别获得7、18个物理化学意义明确的保留特征. 基于保留特征与支持向量回归(SVR), 对训练集建立定量构效关系(QSAR)模型, 预测独立测试集, 其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果. 新方法运行速度快, 选取的特征物理化学意义明确, 解释性强, 在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景.  相似文献   

16.
17.
18.
19.
基于地统计学与支持向量回归的QSAR建模   总被引:4,自引:0,他引:4  
基于主成分分析(PCA)、地统计学(GS)和支持向量回归(SVR), 提出了一种新的定量构效关系(QSAR)个体化预测方法——Weight-PCA-GS-SVR. 其基本思路是: 先以PCA降维并消除自变量间的信息冗余, 继以SVR经非线性主成分筛选去除与因变量无关的主成分, 再以保留主成分计算样本间的加权距离, 然后以高维GS确定公用变程; 每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有k个近邻, 以SVR训练建模完成个体化预测. Weight-PCA-GS-SVR从行、列两个方向对模型进行了优化, 为自变量提供了一种新的加权方法, 为解决最优k近邻选择难题提供了新的思路, 并具有SVR原来的优点. 经3个化合物活性实例数据集验证, 新方法在所有参比模型中预测精度最高, 且明显优于文献报道结果, Weight-PCA-GS-SVR在QSAR等回归预测领域有较广泛的应用前景.  相似文献   

20.
定量结构-活性/性质相关性(QSAR/QSPR)研究的基本依据是化合物的性质与结构具有相关性,所以只要有方法描述化合物的结构(得到X)就可与化合物的性质(作为Y)建立起数学模型,并由引模型预测未知化合物。由化合物的结构可衍生(即描述)出诸多变量,从统计学出发,希望用尽可能少的变量来表征尽可能多的信息(如多元回归分析)。过多的变量不仅计算量大,从而可以导致所得的数学模型不稳定,使预测结果较差^[1],而且不同变量的组合所得结果可能差别很大,由此需要对变量进行压缩和选择。虽然变量的选择是一个非常费时和复杂的工作,但变量选择的好坏对数学模型的稳定性及准确性有致关重要的影响,从某种角度上讲,它能决定一项QSAR/QSPR研究的成败。最简单的选择变量的方法是穷举组合法,但此方法的计算量非常大,特别是当变量数较大时,该方法是实际上是不可行的,尽管用于变量选择的方法已有报道,但问题尚有待进一步研究。本文侧重比较了正交变换法与变量最优子集回归法,得到了很有启示性的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号