首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
盛振  黄琦  康宏  刘琦  曹志伟  朱瑞新 《化学学报》2011,69(16):1845-1850
相似性搜索技术在大规模药物筛选中有着广泛的应用, 而作为其构成要素之一的化合物描述符, 则在相似性搜索中起着至关重要的作用. 但是迄今为止, 尚未发现一种描述符能够全面的描述化合物. 近来, 融合不同结构描述符用于相似性搜索的研究屡见报道, 不过由于这些描述符都源自化合物的结构, 融合以后不仅不能保证对化合物进行更全面的描述, 还带来严重的冗余现象. 为此, 根据哲学中对于一个事物的描述需要同时从本质与外延两个方面同时进行这一基本原理, 构建了一个全新的化合物活性描述符: 基因功能模块指纹(GO指纹), 综合运用结构指纹(本质)和GO指纹(外延)来描述化合物. 与将化合物基因表达直接构建的活性指纹不同, GO指纹不仅(1)降低了芯片数据的维度, 避免了其维度高、相关性强、噪声大的问题; 同时(2)拉近了描述符和化合物活性之间的距离. 通过将GO指纹和结构指纹融合后用于化合物相似性搜索, 结果表明新的描述符(1)使得结构和功能都相似的化合物之间的相似性更高; (2)而使得仅在单方面相似性较高的化合物得到有效排除. 本研究为进行快速、高效、大规模的药物筛选提供了新的思路, 这势必将提高药物筛选的结果, 进一步加快新药研发和旧药新用的进程.  相似文献   

2.
采用20种天然氨基酸的47个information indices描述符、33个connectivity indices描述符和44个eigenvalue-based indices描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVICE.将其分别对三肽血管收缩素转化酶(ACE)、抗菌十八肽(AMP)、苦味活性二肽(BTT)序列表征后,建立结构与活性的SMR-MLR模型,并采用内外部双重验证的方法检验模型的稳定性.所建模型相关统计参量如下:复相关系数(Rcum2)、留一法(LOO)交互校验复相关系数(RCV2)和外部样本校验复相关系数(Qext2)分别为0.988,0.964,0.985;0.990,0.970和0.855;0.949,0.887,0.830.结果表明,运用SVICE描述符建立的MLR模型拟合、预测能力均较好,能较好解释肽类药物的活性与结构间的关系从而为新的强活性肽类药物的分子设计和改造提供了指导.  相似文献   

3.
从20种天然氨基酸的41个randic molecular profiles、44个eigenvalue based indices和47个walk and path counts非零描述符分别进行主成分分析,得出一种新的氨基酸描述符——SVREW.将其应用于血管紧张素转化酶抑制三肽结构表征,应用多元线性回归(MLR)及偏最小二乘(PLS)建立定量构效关系模型,同时采用内部与外部双重验证的方法验证模型的稳定性.所建模型复相关系数(Rcum2)、留一法(LOO)交互校验相关系数(Rcv2)和外部样本校验相关系数(Qext2)分别为MLR(0.994,0.974,0.991),P LS(0.949,0.886,0.898).然后利用此多元线性回归方程设计出一系列血管紧张素转化酶抑制三肽化合物并预测了其活性,并且应用分子对接验证所设计药物的合理性.经研究表明SVREW描述符应用于ACE三肽结构表征所建模型的稳定性与预测能力均较好,有望成为多肽定量构效关系研究中一种有效的结构表征方法,并对新药物的发现和研究提供指导.  相似文献   

4.
从20种天然氨基酸的41个randic molecular profiles非零描述符、44个eigenvalue based indices非零描述符和47个walk and path counts非零描述符分别进行主成分分析,得出一种新的氨基酸描述符-SVREW。将其应用于血管紧张素转化酶(ACE)抑制二肽和ACE抑制三肽、苦味二肽和苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的结构表征,应用多元线性回归(MLR)建立定量构效关系模型,同时采用内部与外部双重验证的方法验证模型的稳定性。所建ACE抑制二肽、ACE抑制三肽、苦味二肽、苦味四肽、后叶催产素类似物、HLA-A*0201限制性CTL表位肽的模型复相关系数(R2cum)分别为0.994,0.797,0.948,0.878,0.686,0.720;留一法交互校验复相关系数(R2cv)分别为0.955,0.859,0.879,0.958,0.796,0.843;外部样本校验相关系数(Q2ext)分别为0.990,0.954,0.890,0.950,0.748,0.773。经研究表明SVREW描述符用于肽分子结构表征所建模型的稳定性与预测能力均较好,有望成为多肽定量构效关系研究中一种有效的结构表征方法,可对新药物的发现和研究提供指导。  相似文献   

5.
基于支持向量学习机方法的人体小肠吸收药物活性的预测   总被引:2,自引:0,他引:2  
为了预测分子在人体小肠中的吸收,本文计算了表征分子的电子、拓扑、几何结构、分子形状等特征的102个分子描述符,用遗传算法变量选择方法使描述符减少到47个。体系共包含了230个化合物分子,69个不能被吸收(mA-),161个可以被吸收(HIA )。对建立的SVM模型,用5重交叉验证和独立测试集进行验证,预测正确率分别达到79.1%和77.1%,结果具有较好的一致性。在模型验证中,通过聚类分析方法组合训练集和测试集,保证了模型的稳定性,提高了建模效率。  相似文献   

6.
随着大量分子描述符应用于QSAR/QSPR,如何筛选出具有良好稳定性和预测能力的描述符集,成为亟待解决的一个瓶颈问题.将63个有机化合物的1664个描述符经过初步预选后,利用偏最小乘(PLS)方法进行变量筛选,获得42个重要描述符;随机选择43个有机物,针对透聚乙烯膜性能进行训练研究,得优良估计能力和良好稳定性模型(A=6,r2=0.9647,RMSE=0.213,q2=0.8364,RMSV=0.467);对模型外部20个有机物进行预测,表明模型具有良好预测能力(rp2=0.9306,RMSP=0.326).PLS变量筛选法可以快速有效地筛选与活性密切相关的重要描述符,进而构建具有良好稳定性和预测能力的QSAR模型.  相似文献   

7.
为预测埃坡霉素类衍生物的抗癌活性, 定义了一套表征分子形状的描述符, 即K阶形状参数, 并计算了67个表征分子的电子、拓扑和几何结构的分子描述符. 描述符经遗传算法筛选, 用于建立基于支持向量学习机(SVM)的抗癌活性分类模型; 用留一法和5重交叉验证法对SVM模型参数进行了优化. 结果表明模型具有较高的预测性且两种方法得到相近结果, 交叉验证的预测正确率达80.6%; 经筛选后的描述符有30个, 其中含有5个K阶形状参数, 这些描述符对埃坡霉素类衍生物的抗癌活性的模型建立具有比较重要的作用.  相似文献   

8.
分子映射(MOLMAP)指数是以分子的化学键描述符为基础,通过Kohonen自组织映射依据一定的算法而衍生.化学键描述符是由化学键的物理化学性质,如两端原子的电荷差和拓扑性质,键连杂原子数量等所组成.本文将分子映射指数应用于4075个有机物质(Ames实验结果:2305个结构有诱变性,1770个结构无诱变性)的变异性预测.通过随机森林,分别采用三种类型的指数建立模型:(1)采用不同维数的分子映射指数;(2)采用全局分子描述符;(3)将分子映射指数与全局分子描述符相结合.整个数据集的集外(out-of-bag)交叉验证的正确预测率达到85.4%.为了检验模型的稳定性,采用所建模型预测源于另一数据库的472个化合物,正确预测率为86.7%,与此前的研究相比,两个预测结果均有所提高.  相似文献   

9.
B-Raf激酶在促分裂素原活化蛋白激酶(MAPK)信号转导通路中起着重要作用,已被确定为癌症治疗非常有吸引力的靶标.新型高效B-Raf抑制剂的开发成为癌症治疗的一个热门研究领域.本文以结构多样的B-Raf II型抑制剂为研究对象,联合应用分子对接和定量构效关系(QSAR)模型研究其定量构效关系去探讨抑制活性的起源.两个主题作为研究重点:生物活性构象和描述符.首先对分子对接方法(Glide、Gold、LigandFit、Cdocker和Libdock)进行准确性评价,后将研究的对象分子对接到B-Raf活性位点并获得生物活性构象.基于准确的对接结果,计算得到16个打分评价函数和21个能量描述符,以此构建定量构效关系模型. QSAR结果表明模型具有高度精确的拟合和强的预测能力(模型M1: r2 = 0.852, r(CV)2 = 0.790, rpre2 = 0.864;模型M2: r2 = 0.738, r(CV)2 = 0.812, rpre2 = 0.8605).同时探讨了对抑制活性有重要影响的描述符,结果表明打分评价函数(G_Score, -ECD, Dock_Score, PMF)与能量描述符(S(hb_ext), DE(int), Emodel)对抑制活性影响非常大.通过虚拟筛选和QSAR模型理论预测,一些新的具有潜在抑制活性的化合物作为B-Raf II型抑制剂被获得.上述信息对于进一步设计新颖高效的B-Raf II型抑制剂提供了有用的指导.  相似文献   

10.
丛湧  薛英 《物理化学学报》2013,29(8):1639-1647
对89 个苯并异噻唑和苯并噻嗪类丙型肝炎病毒(HCV) NS5B聚合酶非核苷抑制剂进行了定量构效关系(QSAR)研究. 采用遗传算法组合偏最小二乘(GA-PLS)和线性逐步回归分析(LSRA)两种特征选择方法选择最优描述符子集, 然后建立多元线性回归和偏最小二乘线性回归模型. 并首次尝试使用遗传算法耦合支持向量机方法(GA-SVM)对两种特征选择方法所选的描述符子集分别建立非线性支持向量机回归模型. 三种机器学习方法所建模型均得到比较满意的预测效果. 采用LSRA所选的6 个描述符建立的三个QSAR模型对于测试集的相关系数为0.958-0.962, GA-SVM法给出最好的预测精度(0.962). 采用GA-PLS所选的7个描述符建立的三个QSAR模型对于测试集的相关系数为0.918-0.960, 偏最小二乘回归模型的结果最好(0.960). 本工作提供了一种有效的方法来预测丙型肝炎病毒抑制剂的生物活性, 该方法也可以扩展到其他类似的定量构效关系研究领域.  相似文献   

11.
刘静  管骁  彭剑秋 《化学学报》2012,70(1):83-91
收集20种天然氨基酸的457种理化性质,按照疏水、电性特征、氢键贡献和立体特征分类后,对它们分别进行主成分分析(Principal component analysis,PCA),得到一个新的氨基酸残基结构描述符SVHEHS.用该描述符分别对血管紧张素转化酶(AngiotensinⅠconverting enzyme,ACE)抑制二肽、三肽、四肽进行序列表征,并用来与生物活性建立偏最小二乘(Partial least square regression,PLS)模型.ACE抑制二肽、三肽、四肽模型的相关系数、交叉验证相关系数、 均方根误差、外部验证相关系数分别为0.607,0.507,0.587,0.783;0.852,0.813,0.232,0.839;1,1,0,0.935.由此说明,采用SVHEHS描述符建立的PLS模型拟合、预测能力均较好,可用于血管紧张素转化酶抑制肽的定量构效关系研究.  相似文献   

12.
Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用   总被引:1,自引:0,他引:1  
为深入认识含氟农药生物活性与其结构之间的关系, 建立了理想的QSAR模型, 从化合物油水分配系数等7个分子结构描述符出发, 基于支持向量回归(SVR)和MSE最小原则, 经自动寻找最优核函数和非线性筛选描述符, 构建了多个K-最近邻(KNN)预测子模型. 再经非线性筛选获得保留子模型, 以保留子模型实施组合预测(Multi-KNN-SVR). 33种含氟化合物对5种不同病害生物活性的留一法组合预测结果表明, 采用非线性筛选描述符和KNN子模型能有效地提高预测精度, 基于多个KNN子模型的非线性组合能进一步提高预测性能. Multi-KNN-SVR组合预测在QSAR以及其它相关预测研究中具有广泛应用前景.  相似文献   

13.
利用密度泛函理论(DFT)在杂化泛函B3LYP和基组6-311G(d,p)水平下对7,10-位双取代喜树碱衍生物(CPTs)进行了构型优化,计算出分子的电子结构描述符,利用Chemoffice 8.0软件计算出几个相关的物化描述符;采用逐步多元回归法对该组化合物的抗癌活性与分子描述符之间建立了定量结构-活性关系(QSAR)模型。所建最佳三参数QSAR模型的复相关系数R=0.951;用留一法(leave-one-out,LOO)进行交互检验,得到交互检验系数RCV2=0.778。结果表明,所得QSAR模型具有良好的预测能力,而且影响药物活性的主要因素有化合物分子的结构、最高占据和最低空分子轨道能量差及13-位碳原子的净电荷。  相似文献   

14.
应用随机森林方法、开放源代码软件-CDK(Chemistry Development Kit)描述符与170个化合物的训练数据集[其中96个为磷糖蛋白(P-gp)底物], 建立了P-gp底物的识别模型. 研究了CDK描述符与P-gp底物识别的关系, 结果表明, 原子极化性和电荷偏面积等分子属性对P-gp底物识别起到重要作用. 该模型对训练集的预测正确率为99.42%; 对外部测试集(42个化合物, 其中24个为P-gp底物)的预测结果为P-gp底物、非底物及总测试集的识别正确率分别为87.50%, 83.33%和85.71%. 212个化合物数据集上的Leave-One-Out交叉验证识别正确率为77.4%.  相似文献   

15.
刘红艳  王遵尧  刘树深  翟志才 《色谱》2005,23(4):336-340
在B3LYP/6-31G*水平上计算了76个多氯萘分子,将计算得到的结构参数和热力学参数作为理论描述符引入到与气相色谱保留指数(RI)相关的多元回归分析中,建立了拟合度高、物理意义明确、预测能力强的保留时间-结构参数的相关方程(模型Ⅰ)(r2=0.9957);再以氯原子的取代个数和相互位置作为理论描述符,得出另一模型(模型Ⅱ)(r2=0.9967)。找出了影响多氯萘保留时间的主要因素。  相似文献   

16.
生物富集因子(BCF)是REACH法规要求的生物积累危害评价指标的关键参数,用实验的方法测定BCF值人力物力花费较大,而用计算的方法预测BCF值可以有效地替代昂贵的实验过程。该研究使用E-Dragon计算了数据集中每个分子的1 666种描述符,并用筛选后的描述符与lgBCF建立了QSAR模型:采用随机森林与支持向量机建立的分类预报模型,随机森林分类模型的准确率为0.89、敏感度为0.89;用基于准确率递减和基尼系数方法的随机森林分类模型筛选出对lgBCF值有重要影响的30个描述符,这些描述符包括ALOGPS_lgP、MATS6v、TPSA.NO.、GATS7v等;ALOGPS_lgP和ALOGPS_lgS是用支持向量机分类模型筛选出的对lgBCF值有重要影响的描述符。  相似文献   

17.
基于支持向量机方法的HERG钾离子通道抑制剂分类模型   总被引:1,自引:0,他引:1  
对human ether-a-gō-gō related genes(HERG)钾离子通道(钾通道)抑制剂,计算了表征分子组成、电荷分布、拓扑、几何结构及物理化学性质等特征的1559个分子描述符.采用Fischer Score(F-Score)排序过滤和Monte Carlo模拟退火法相结合从中筛选与HERG钾通道抑制剂分类相关的分子描述符.采用支持向量机(SVM)方法,分别以IC50=1.0、10.0μmol·L-1为分类标准,建立了三个分类预测模型.对367个训练集分子,用五重交叉验证.得到正、负样本的平均预测精度分别为84.8%-96.6%、80.7%-97.7%,其总的平均预测精度为87.1%-97.2%,优于其它文献报道结果.对97个外部测试集分子,所建三个模型的总样本预测精度在67.0%-90.1%之间,接近或优于其它文献报道结果.  相似文献   

18.
基于深度神经网络(DNN)和迁移学习(TL),使用少量数据建立TL模型,精准预测了金属有机骨架(MOFs)的甲烷和氢气输送性能.首先,使用8414个MOFs在298 K/65 bar~298 K/5.8 bar(1 bar=0.1 MPa)条件下的甲烷输送数据训练一个决定系数(R2)为0.973的DNN[源任务(ST)模型].随后,将ST模型的部分参数冻结,使用100个MOFs在233 K/65 bar~358 K/5.8 bar条件下的甲烷输送数据和100个MOFs在198 K/100 bar~298 K/5 bar条件下的氢气输送数据分别微调ST模型,进行TL建模.结果表明,两个TL模型的R2分别为0.968和0.945,均高于其它5个传统的ML模型.所开发的TL模型在预测小数据集时具有高精度与高稳定性.最后,使用排列特征重要度方法来计算描述符重要度,明确了模型之间的“知识”共享情况,并在此基础上探讨了重要描述符和输送能力之间的关系.  相似文献   

19.
采用化合物非氢原子固有特征值和非氢原子之间的电性作用为结构描述符,对红葡萄酒香气成分中的65个化合物进行了结构表征。通过多元线性回归(MLR)和逐步回归(SMR)方法建立了该类化合物结构-色谱保留时间关系(QSRR)模型。模型的复相关系数(R)为0.907,标准偏差(SD)为4.507。用留一法(LOO)交互检验对模型进行了评价,得到的复相关系数(RCV)为0.849,标准偏差(SDCV)为5.656。结果表明,采用的分子结构描述符能够较好地表现该类化合物结构特征,所建模型具有较好的预测能力和稳定性。  相似文献   

20.
基于SVR和k-近邻群的组合预测在QSAR中的应用   总被引:1,自引:0,他引:1  
为提高定量构效关系(QSAR)研究的预测精度,发展了一种新的基于支持向量机回归(SVR)非线性筛选分子结构描述符、基于k-近邻群的非线性组合预测方法.首先以均方误差(MSE)最小为原则,以留一法通过多轮末尾淘汰实施分子结构描述符的非线性SVR汰选并给出最优核函数和相应保留描述符;其次基于待测样本与训练样本保留描述符向量的欧氏距离,以不同k-近邻群子模型双重留一法预测值反映样本集的异质性;然后基于MSE最小,以留一法通过多轮末尾淘汰实施近邻群子模型的非线性SVR汰选并给出最优核函数和相应保留子模型;最后基于保留子模型以双重留一法实施组合预测.以取代苯胺和苯酚类化合物对大型溞的QSAR实例验证表明:新方法在所有参比模型中预测精度最高,且能更精细地反映描述符与化合物毒性间的非线性关系,具结构风险最小、非线性、适于小样本,能有效克服过拟合、维数灾和局极小,非线性筛选描述符和子模型,非线性组合预测,自动选择最优核函数及其相应参数,泛化推广能力优异、预测精度高等诸多优点,在QSAR研究中有广泛应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号