期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于支持向量机的高维特征非线性快速筛选与肽QSAR建模 总被引：1，自引：0，他引：1

代志军周玮袁哲明《物理化学学报》2011,27(7):1654-1660

以氨基酸的531个物理化学性质参数直接表征肽的结构, 基于支持向量回归发展了一种新的高维特征非线性快速筛选方法, 将其应用于苦味二肽和血管紧张素转化酶抑制剂2个肽体系的定量序效关系(QSAR)建模, 各筛选获得10个意义明确的保留描述子. 以保留描述子建立支持向量回归模型, 其拟合精度、留一法交叉测试精度和外部预测精度较文献报道结果均有较大幅度提升, 优势明显; 对所建模型进行了非线性回归显著性测验、单因子相对重要性显著性测验和单因子效应分析, 增强了模型的可解释性. 新方法在肽、蛋白质QSAR建模等高维数据回归预测领域有广泛应用前景. 相似文献

2.

基于SVR和k-近邻群的组合预测在QSAR中的应用 总被引：1，自引：0，他引：1

袁哲明熊洁仪张永生《分子科学学报》2007,23(3):163-169

为提高定量构效关系(QSAR)研究的预测精度,发展了一种新的基于支持向量机回归(SVR)非线性筛选分子结构描述符、基于k-近邻群的非线性组合预测方法.首先以均方误差(MSE)最小为原则,以留一法通过多轮末尾淘汰实施分子结构描述符的非线性SVR汰选并给出最优核函数和相应保留描述符;其次基于待测样本与训练样本保留描述符向量的欧氏距离,以不同k-近邻群子模型双重留一法预测值反映样本集的异质性;然后基于MSE最小,以留一法通过多轮末尾淘汰实施近邻群子模型的非线性SVR汰选并给出最优核函数和相应保留子模型;最后基于保留子模型以双重留一法实施组合预测.以取代苯胺和苯酚类化合物对大型溞的QSAR实例验证表明:新方法在所有参比模型中预测精度最高,且能更精细地反映描述符与化合物毒性间的非线性关系,具结构风险最小、非线性、适于小样本,能有效克服过拟合、维数灾和局极小,非线性筛选描述符和子模型,非线性组合预测,自动选择最优核函数及其相应参数,泛化推广能力优异、预测精度高等诸多优点,在QSAR研究中有广泛应用前景. 相似文献

3.

基于高维特征非线性筛选的HLA-A*0201限制性CTL表位预测

韩娜袁哲明陈渊代志军王志明《物理化学学报》2013,29(9):1945-1953

高活性细胞毒T细胞(CTL)表位鉴定是设计肿瘤疫苗的关键内容.采用天然氨基酸的531个物理化学性质参数表征HLA-A^*0201限制性表位9肽, 从531×9个初始描述子出发, 经二元矩阵重排过滤器粗筛和多轮末尾淘汰精细筛选, 获得18个物理化学意义明确的保留描述子. 18个保留描述子主要涉及除1位、5位外各位置残基的疏水性和空间结构特征, 3位残基疏水性对活性影响最大, 且2位、4位、9位残基共占10个保留描述子,支持2位和9位残基为锚点、3位为关键位点以及4位残基为标志链的现有认知. 对18个保留描述子以支持向量回归构建定量序效模型,其拟合、留一法交叉验证决定系数R²、Q_cv²分别为0.957、0.708; 独立预测决定系数及均方根误差Q_ext² 、RMSE_ext分别为0.818、0.366, 明显优于文献报道. 通过对全组合虚拟9肽的预测, 得到了多条预测活性高于已知表位肽的9肽, 可供实验验证. 较全面阐明了特定位置残基对多肽亲和性的影响规律, 为高活性多肽疫苗分子设计提供了切实指导. 相似文献

4.

多肽一级结构表征与抗菌肽QSAM建模 总被引：1，自引：0，他引：1

苏满秀王立峰代志军袁哲明柏连阳《高等学校化学学报》2012,33(11):2526-2531

从整体上考虑多肽一级结构, 提出了3种仅基于多肽氨基酸序列、计算简便、适于不等长肽和可捕获多肽上下文关联特征的多肽新描述子, 即地统计学关联(GS-AA531)描述子、多尺度组分与关联(MSCC)描述子和地统计学关联与多尺度组分(GS-AA531-MSC)描述子. 将其应用于2个抗菌肽体系(等长肽与不等长肽)的结构表征, 并以支持向量回归建立QSAM模型. 模型的拟合、留一法及独立测试结果表明, 结合特征筛选的新描述子GS-AA531与GS-AA531-MSC的预测精度明显稳定且优于其它参比描述子, 在多肽QSAM研究中具有广泛应用前景. 相似文献

5.

基于地统计学与支持向量回归的QSAR建模 总被引：4，自引：0，他引：4

陈渊袁哲明周玮熊兴耀《物理化学学报》2009,25(8):1587-1592

基于主成分分析(PCA)、地统计学(GS)和支持向量回归(SVR), 提出了一种新的定量构效关系(QSAR)个体化预测方法——Weight-PCA-GS-SVR. 其基本思路是: 先以PCA降维并消除自变量间的信息冗余, 继以SVR经非线性主成分筛选去除与因变量无关的主成分, 再以保留主成分计算样本间的加权距离, 然后以高维GS确定公用变程; 每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有k个近邻, 以SVR训练建模完成个体化预测. Weight-PCA-GS-SVR从行、列两个方向对模型进行了优化, 为自变量提供了一种新的加权方法, 为解决最优k近邻选择难题提供了新的思路, 并具有SVR原来的优点. 经3个化合物活性实例数据集验证, 新方法在所有参比模型中预测精度最高, 且明显优于文献报道结果, Weight-PCA-GS-SVR在QSAR等回归预测领域有较广泛的应用前景. 相似文献

6.

基于局部核函数与全局核函数支持向量回归优化小样本QSAR建模 总被引：1，自引：0，他引：1

谭泗桥袁哲明柏连阳谭显胜熊洁仪《分子科学学报》2009,25(3)

为提高小样本定量构效关系(QSAR)预测精度,基于支持向量机全局核函数与局部核函数提出了一种新的建模方法:先依不同核函数筛选描述符,再依保留描述符构建支持向量机回归(SVR)子模型.子模型预测活性值与实验值组成混合样本.以均方误差(MSE)最小为原则,对混合样本再次基于SVR实施核函数寻优与子模型筛选,基于最优核函数和保留子模型以留一法完成预测.对2个小样本体系的QSAR研究表明,该方法兼具局部核函数和全局核函数的优点,既有较强的学习能力,又有较好的推广能力,预测精度高,稳定性好. 相似文献

7.

基于岭回归和SVM的高维特征选择与肽QSAR建模 总被引：1，自引：0，他引：1

王志明韩娜袁哲明伍朝华《物理化学学报》2013,29(3):498-507

岭回归估计权重绝对值在一定程度上体现了对应特征作用大小, 据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法. 对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9 肽两个肽体系, 以氨基酸的531 个物理化学性质参数直接表征肽结构, 各获得1062、4779 个初始特征; 对训练集, 初始特征以岭回归排序后序贯引入, 当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止, 最后以多轮末尾淘汰进一步精筛, 分别获得7、18个物理化学意义明确的保留特征. 基于保留特征与支持向量回归(SVR), 对训练集建立定量构效关系(QSAR)模型, 预测独立测试集, 其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果. 新方法运行速度快, 选取的特征物理化学意义明确, 解释性强, 在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景. 相似文献

8.

基于序列特征筛选与支持向量回归预测蛋白质折叠速率

李咏周玮代志军陈渊王志明袁哲明《物理化学学报》2014,30(6):1091-1098

折叠速率预测对阐明蛋白质折叠机理意义重大.本文收集了115条目前已知折叠速率的蛋白质样本(包括二态、多态和混态蛋白),为了较全面地表征蛋白质分子的一级结构信息,提取序列长度、氨基酸残基多尺度组分、成对残基k-space特征与基于残基物理化学性质的地统计学关联总共9357维特征.经改进的二元矩阵重排过滤器和多轮末尾淘汰非线性筛选,获得23个物理化学意义明确的保留特征,建立的非线性支持向量回归模型Jackknife交叉验证的相关系数R=0.95,优于文献报道及其他参比特征选择方法.支持向量回归解释体系表明折叠速率与保留描述符的非线性回归极显著,分析了各保留描述符对折叠速率的影响,结果表明蛋白质折叠速率与序列长度、中短程关联特征、三联体残基组份特征等密切相关. 相似文献

9.

Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用 总被引：1，自引：0，他引：1

谭显胜袁哲明周铁军王春娟熊洁仪《高等学校化学学报》2008,29(1):95-99

为深入认识含氟农药生物活性与其结构之间的关系, 建立了理想的QSAR模型, 从化合物油水分配系数等7个分子结构描述符出发, 基于支持向量回归(SVR)和MSE最小原则, 经自动寻找最优核函数和非线性筛选描述符, 构建了多个K-最近邻(KNN)预测子模型. 再经非线性筛选获得保留子模型, 以保留子模型实施组合预测(Multi-KNN-SVR). 33种含氟化合物对5种不同病害生物活性的留一法组合预测结果表明, 采用非线性筛选描述符和KNN子模型能有效地提高预测精度, 基于多个KNN子模型的非线性组合能进一步提高预测性能. Multi-KNN-SVR组合预测在QSAR以及其它相关预测研究中具有广泛应用前景. 相似文献

10.

基于逐步非线性回归的血管紧张素转化酶抑制肽QSAR建模

周恒巴庆芳袁哲明代志军《化学通报》2022,85(6):736-745

线性特征选择方法可提升定量构效关系(QSAR)模型的预测能力,但易忽略特征(理化属性)与分子活性间的非线性关系。本文提出基于支持向量回归(SVR)的逐步非线性回归(SSNR)特征选择算法并用于降血压药物血管紧张素转化酶(ACE)抑制肽的QSAR研究。首先以具有不同背景的5组分子描述符分别表征肽序列,以SSNR实施特征选择,再通过智能一致性模型(ICM)对各组描述符对应子模型的预测活性进行加权整合,获得最终活性预测值。在ACE抑制二肽与三肽两个数据上的应用结果表明,SSNR获得的特征子集结合ICM策略可有效提升模型预测能力(二肽的平均Q■为0.675±0.002,三肽为0.663±0.013),优于遗传算法-偏最小二乘(0.538±0.049、0.599±0.047)与逐步线性回归(0.583±0.041、0.675±0.010)。最后基于抑制活性已知肽序列预测所有活性未知肽的活性,分析了高活性肽及其氨基酸偏好性,为人工合成潜在高活性ACE抑制肽提供可能的序列组合。相似文献