首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
通过对KullbackLeibler距离的研究,计算出基因位点分布之间的KullbackLeibler距离,根据KullbackLeibler距离值找出某种疾病最有可能的一个或几个致病位点的位置信息,实现对致病位点的位置信息的快速识别,为遗传学中发现遗传病或性状的遗传机理方法做出参考.  相似文献   

2.
研究发现,通过全基因组关联分析,找出与疾病相关的位点或基因,对于人们防治遗传病,具有重要意义.首先,考虑固定效应(SNP位点)和随机效应(人群中的群体结构和亲缘关系),建立了混合线性模型,并且利用基于FDR标准的BH法对多重检验的P值进行校正,找出最有可能的致病位点.其次,利用Fisher的P值组合方法,将基因所包含的所有SNP位点组合,找出与疾病最可能相关的基因.由于遗传疾病可能与基因所包含的位点的子集关联,我们参考已有的ARTP模型,对模型进行了改进.最后,建立多表型联合模型MultiPhen找出与10个性状有关联的位点.  相似文献   

3.
采用统计检验和机器学习的方法来研究SNP或基因与疾病(可测性状)的关联性.先对SNP选择合适的数值编码方式,并设计了相应的统计检验流程,随后通过P值初步筛选出了与疾病或性状相关联的位点.在此基础上,对筛选出的位点,采用随机森林,XGBoost等机器学习方法,从样本外预测的角度判断SNP与疾病或性状的关联度.相关结果,显示发现运用该分析框架能较好地筛选出与疾病或性状关联的SNP(基因).并且框架由于考虑了多种分类模型,有着稳健性高,计算开销较小以及可以交叉比对等优势.框架未来在还可在金融,社交网络等方面发挥作用.  相似文献   

4.
基于主成分回归模型的经济增长因素分析   总被引:1,自引:0,他引:1  
在经济增长因素分析中,常用多元回归分析方法,但有时建立的回归模型拟合效果不好或不合理。为此本文给出建立主成分回归分析的方法。本文对经济增长给出两种回归分析方法,即建立主成分线性回归模型,分析经济增长的边际效应,建立主成分非线性回归模型,分析经济增长的弹性效应,实例表明效果很好。  相似文献   

5.
糖基化是蛋白质翻译后修饰的重要形式之一,氧链糖基化是糖基化的一种主要类型,对蛋白质氧链糖基化位点进行预测具有重要的意义.以窗口长度为41的蛋白质序列为研究对象,采用稀疏编码,利用主成分分析法研究了氧链糖基化蛋白质序列的结构特点;在提取主成分的基础上,设计了一个含单隐层的BP神经网络(256—8—4),对蛋白质氧链糖基化位点进行预测,把蛋白质序列分为4类;并同直接用BP神经网络分类的结果相比较,实验结果证明提出的方法省时,准确,预测的准确率达80~90%.  相似文献   

6.
基于GM(1,1)与主成分回归的海南GDP预测及其影响因素分析   总被引:1,自引:0,他引:1  
以海南省年度GDP为衡量经济增长指标变量,以旅游业总收入、农林牧渔业增加值、建筑业增加值、固定资产投资总额、社会消费品零售总额及对外贸易进出口总额六个指标作为影响因素,采用多个标准对1987-2014年数据进行筛选,建立GM(1,1)模型对海南GDP及其影响因素进行5年预测,来分析海南经济结构变动趋势.利用灰色关联分析定性分析了六个行业对GDP的影响程度;从定量分析角度,利用线性主成分回归模型和对数主成分回归模型分别对海南GDP进行边际、弹性分析.发挥了灰色系统科学理论和计量经济模型各自长处,为建设海南国际旅游岛相关政策的制定提供参考.  相似文献   

7.
通过测算贷款、存款等投入要素对净利息收入的贡献,评价商业银行的投入产出效率,对银行的资本运营和监管机构的银行资本监管具有重要意义.原始投入变量过多和变量之间的高度相关都会对评价模型的估计和检验产生影响.创新和特色在于:一是通过提取互不相关的2个主成分,反映6个原始投入变量95%以上的信息.建立基于主成分的SFA模型,克服变量过多和变量高度相关对模型参数估计和检验的影响,解决原始投入变量高度相关导致的系数检验不显著和符号不正确问题.二是利用主成分回归,将主成分与投入变量的关系表达式代入基于主成分的SFA模型,进而确定投入变量的权重系数,建立银行的投入产出模型,反映6个投入变量对净利息收入的影响规律.实证研究结果表明:一是利用主成分建立的SFA模型系数检验显著,技术效率随时间增加.二是利息支出、贷款余额、总资产、存款总额、固定资产和员工人数产出弹性分别为0.287,0.272,0.254,0.086,0.072和0.053.因此影响银行净利息收入的主要因素为利息支出、贷款余额、总资产.存款总额、固定资产和员工人数对净利息收入的影响较小.三是18家商业银行的规模系数为1.025,银行的净利息收入表现出规模经济特征.  相似文献   

8.
将主成分分析和支持向量机回归相结合,以广西5、6月区域平均日降水量作为预报对象,进行区域日降水量预测研究.首先,整理分析大量的T213数值预报产品信息数据进行主成分分析,得到主成分数据序列;其次,根据主成分数据序列建立训练集训练支持向量机,并利用遗传算法优化参数;最后,输入支持向量机所需数据,得到主成分预测结果,建立广西日降水预报模型.实例计算结果表明,支持向量机回归模型比逐步回归模型有更好的预测能力.  相似文献   

9.
随着信息技术的进步和发展,现代生物学越来越多地将这些技术用于大规模生物数据的收集、分析、挖掘等过程.大量计算机技术,特别是统计方法被用来进行复杂疾病的分析.大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联.因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生.利用随机森林方法、Bootstrap重抽样、logistic回归等大数据分析方法,意在解决优化生物学位点关联性分析中单一致病位点识别、多位点相互作用和多性状位点关联性分析等子问题.  相似文献   

10.
我国上市公司资本结构影响因素实证分析   总被引:17,自引:0,他引:17  
本文选取了可能影响企业资本结构的多个指标变量进行分析 ,利用主成分分析提供的方法将变量综合成彼此互不相关的少数几个主成分。再用主成分 (作为回归自变量 )对企业的 5种资本负债比 (作为回归因变量 )进行多元回归分析 ,得出了影响企业资本结构的主要因素 ,以及这些因素与企业资本结构之间的关系 ,为企业确定资本结构提供参考依据 ,为企业财务决策提供支持。  相似文献   

11.
Functional principal component analysis is the preliminary step to represent the data in a lower dimensional space and to capture the main modes of variability of the data by means of small number of components which are linear combinations of original variables. Sensitivity of the variance and the covariance functions to irregular observations make this method vulnerable to outliers and may not capture the variation of the regular observations. In this study, we propose a robust functional principal component analysis to find the linear combinations of the original variables that contain most of the information, even if there are outliers and to flag functional outliers. We demonstrate the performance of the proposed method on an extensive simulation study and two datasets from chemometrics and environment.  相似文献   

12.
符号数据分析是一种新兴的数据挖掘技术,区间数是最常用的一种符号数据。研究应用区间型符号数据的PCA方法来评价股票的市场综合表现问题。首先介绍了符号数据分析的基本理论。接下来研究了区间数据样本的经验描述统计量的计算,并基于经验相关矩阵,给出了区间主成分分析的算法,该算法最终得到区间数表达形式的主成分取值。最后选取上海证券交易市场20支股票在某一周上的交易数据,进行了实证研究,基于区间主成分得分的矩形图表示,将20支股票按其市场综合表现分成了四类。  相似文献   

13.
基于主成分分析的水质评价方法   总被引:6,自引:0,他引:6  
主成分分析法能够在保证原始数据信息损失最小的情况下,以少数的综合变量取代原有的多维变量,使数据结构大为简化,并且客观地确定变量权数,避免了主观随意性.应用主成分分析法对长春市地面水环境进行评价,且与其它评价方法相比较,结果显示主成分分析法更客观且指导性较强,是一种行之有效的水质评价方法.通过主成分分析进行水质评价,可为水资源规划、利用、开发和环境系统优化提供更为客观的参考依据.  相似文献   

14.
Model misspecification has significant impacts on data envelopment analysis (DEA) efficiency estimates. This paper discusses the four most widely-used approaches to guide variable specification in DEA. We analyze efficiency contribution measure (ECM), principal component analysis (PCA-DEA), a regression-based test, and bootstrapping for variable selection via Monte Carlo simulations to determine each approach’s advantages and disadvantages. For a three input, one output production process, we find that: PCA-DEA performs well with highly correlated inputs (greater than 0.8) and even for small data sets (less than 300 observations); both the regression and ECM approaches perform well under low correlation (less than 0.2) and relatively larger data sets (at least 300 observations); and bootstrapping performs relatively poorly. Bootstrapping requires hours of computational time whereas the three other methods require minutes. Based on the results, we offer guidelines for effectively choosing among the four selection methods.  相似文献   

15.
主成分分析法在高校学生质量综合评价中的应用   总被引:2,自引:0,他引:2  
主成分分析法能够在保证原始数据信息损失最小的情况下,以少数的综合变量取代原有的多维变量,使数据结构大为简化,并且客观地确定变量权重,避免了主观随意性.应用主成分分析方法对高等学校学生质量进行了综合评价,根据综合得分给出了科学的排名,客观地反映了学生各方面的特征.  相似文献   

16.
环境质量的主成分分析   总被引:31,自引:2,他引:29  
主成分分析法能够在保证原始数据信息损失最小的情况下 ,以少数的综合变量取代原有的多维变量 ,使数据结构大为简化 ,并且客观地确定权数 ,避免了主观随意性 ,因而是环境质量综合评价的一种简单易行的有效方法 .通过主成分分析 ,可以为环境质量的分区和分级治理提供重要的理论依据  相似文献   

17.
With the advance of computer storage capacity and online observation technique, more and more data are collected with curves and images. The most two important feature of curve and image data are high-dimension and high correlation between adjacent data. Functional data analysis has more advantage in deal with these data, which can not be treated by traditional multivariate statistics methods. Recently, a variety of functional data methods have been developed, including curve alignment, principal component analysis, regression, classification and clustering. In this paper, we mainly introduce the origins,development and recent process of functional data. Specifically, we firstly introduce the notion of functional data. Secondly, functional principal component analysis has been presented. Then, this paper is devoted to introduce estimation, variable selection and hypothesis testing of functional regression models. Lastly, the paper concludes with a brief discussion of future directions.  相似文献   

18.
With contemporary data collection capacity, data sets containing large numbers of different multivariate time series relating to a common entity (e.g., fMRI, financial stocks) are becoming more prevalent. One pervasive question is whether or not there are patterns or groups of series within the larger data set (e.g., disease patterns in brain scans, mining stocks may be internally similar but themselves may be distinct from banking stocks). There is a relatively large body of literature centered on clustering methods for univariate and multivariate time series, though most do not utilize the time dependencies inherent to time series. This paper develops an exploratory data methodology which in addition to the time dependencies, utilizes the dependency information between S series themselves as well as the dependency information between p variables within the series simultaneously while still retaining the distinctiveness of the two types of variables. This is achieved by combining the principles of both canonical correlation analysis and principal component analysis for time series to obtain a new type of covariance/correlation matrix for a principal component analysis to produce a so-called “principal component time series”. The results are illustrated on two data sets.  相似文献   

19.
随着基因分型技术的不断发展,遗传学家可以获得大量遗传标记的基因型和单体型数据,这为鉴定人类复杂疾病基因提供了前所未有的机会。当不能直接获得单体型数据时,可以使用基因型数据的统计方法来进行关联分析.使用基因型数据对疾病基因进行关联分析的统计方法可以扩充到定位数量性状位点(QTL)。本文扩充了对疾病基因进行关联分析的主成份分析统计量PG咒和熵统计量%。到数量性状,利用选择基因型对QTL进行关联分析。计算机模拟考察了两个统计量的I型错误率.基于10个遗传性血色病(Hereditaryhaemochromatosis)单体型频率的计算机模拟调查了两个统计量的统计功效.结果表明两个统计量PCTt和TGE可以有效地对QTL进行关联分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号