首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
采用统计检验和机器学习的方法来研究SNP或基因与疾病(可测性状)的关联性.先对SNP选择合适的数值编码方式,并设计了相应的统计检验流程,随后通过P值初步筛选出了与疾病或性状相关联的位点.在此基础上,对筛选出的位点,采用随机森林,XGBoost等机器学习方法,从样本外预测的角度判断SNP与疾病或性状的关联度.相关结果,显示发现运用该分析框架能较好地筛选出与疾病或性状关联的SNP(基因).并且框架由于考虑了多种分类模型,有着稳健性高,计算开销较小以及可以交叉比对等优势.框架未来在还可在金融,社交网络等方面发挥作用.  相似文献   

2.
研究发现,通过全基因组关联分析,找出与疾病相关的位点或基因,对于人们防治遗传病,具有重要意义.首先,考虑固定效应(SNP位点)和随机效应(人群中的群体结构和亲缘关系),建立了混合线性模型,并且利用基于FDR标准的BH法对多重检验的P值进行校正,找出最有可能的致病位点.其次,利用Fisher的P值组合方法,将基因所包含的所有SNP位点组合,找出与疾病最可能相关的基因.由于遗传疾病可能与基因所包含的位点的子集关联,我们参考已有的ARTP模型,对模型进行了改进.最后,建立多表型联合模型MultiPhen找出与10个性状有关联的位点.  相似文献   

3.
原始的连锁不平衡熵指数通过比较群体样本中标记熵和条件熵来定位疾病位点或数量性状位点.它可能受群体混杂的影响.而利用病例父母亲对照研究或其他的家系研究可以避免群体混杂的影响.本文拓展了连锁不平衡熵指数到病例父母亲数据,将没有传递给受累子代的父母亲的基因型视为对照样本.随机模拟的结果表明连锁不平衡熵指数适用家系研究.  相似文献   

4.
结构异质性是在定位阈性状基因位点过程中普遍存在的一个问题 .例如 ,数量遗传学家通常根据连锁分子标记推断性状位点基因型 ,由于性状位点基因型的不确定性 ,一个亲折方差组分被引入阈模型 .针对这个问题 ,我们提出了一个新颖的统计模型并推广到多阈值性状 .在这篇理论文章中 ,我们给出了详细的理论推导和计算策略  相似文献   

5.
结构异质性是在定位阈性状基因位点过程中普遍存在的一个问题。例如,数量遗传学家通常根据锁分子标记推断性状位点的基因型,由于性状位点基因型的不确定性,一个亲折方差组分被引入阈模型,针对这个问题,我们提出了一个新颖的统计模型并推广到多阈值性状。在这篇理论文章中,我们给出了详细的理论推导和计算策略。  相似文献   

6.
王黎芳  赵宏光  李昕如  伊媛琪 《应用数学》2013,35(20):1791-17,941,801
目的:研究FasL基因启动子区-844T/C单核苷酸多态性(SNP)与食管鳞癌易感性的关系。方法提取248例食管鳞癌患者(患者组)和297例健康体检者(对照组)外周血基因组DNA,以PCR-RFLP检测FasL-844T/CSNP。分析、比较两组该位点SNP的表达差异。结果食管鳞癌患者与健康体检者的FasL基因启动子区-844位点基因型分布差异有统计学意义(P<0.01)。以TT基因型为对照,TC基因型不增加食管鳞癌患病风险(P>0.05),而CC基因型则显著减少食管鳞癌患病风险(调整后OR=0.425,95%CI=0.255-0.708,P<0.01)。以T等位基因为对照,C等位基因显著减少食管鳞癌患病风险(调整后OR=0.597,95%CI=0.460-0.776,P<0.01)。结论在浙江地区人群中FasL基因-844T/CSNP与食管鳞癌的易感性有关。  相似文献   

7.
我国食品卫生安全风险评估模型   总被引:1,自引:0,他引:1  
食品卫生安全关系到国计民生,建立适合于我国的食品卫生安全保障体系尤为重要.人群食物摄入量模型用"对数正态分布"估计食物摄入量分布,在对国家依据气候、地理、经济等因素进行地域划分的基础上提出了能够保证小样本空间条件下采样均匀的"层次化样本分配模型"用于采样点的选取和各采样点样本数量的分配;污染物分布模型用"贝塔分布"估计食物中的污染物分布,并采用样本在时间轴上平移的方法解决了数据在时间上的不完整性问题;风险评估模型基于人群食物摄入量和食物污染物分布模型,提出"矩元法"对污染物摄入量进行评估,并给出了模型数值化求解和右分位点确定的相关算法.实验表明,风险评估模型所确定的右分位点能有效地反映当前食品卫生安全状况.  相似文献   

8.
目的探讨IL-27p28基因启动子区g.-964 T>C、第2外显子区g.2905T>G和第4外显子区g.4730T>C 3个位点的多态性与浙江地区人群克罗恩病(CD)的相关性。方法选取75例浙江地区汉族CD患者(病例组)及80例健康体检者(对照组),采用聚合酶链反应-连接酶检测,分析两组基因型频率及等位基因频率。结果对照组的基因型分布符合Hardy- Weinberg平衡定律。两组g.-964位点的基因型频率及等位基因频率的差异有统计学意义(P<0.05),而g.2905和g.4730位点的基因频率及等位基因频率的差异无统计学意义(P>0.05)。结论 IL-27p28基因多态位点g.-964 T>C可能与浙江地区汉族人群CD易感性有关, g.2905T>G和g.4730T>C多态性与浙江地区汉族人群CD无关。  相似文献   

9.
随着基因分型技术的不断发展,遗传学家可以获得大量遗传标记的基因型和单体型数据,这为鉴定人类复杂疾病基因提供了前所未有的机会。当不能直接获得单体型数据时,可以使用基因型数据的统计方法来进行关联分析.使用基因型数据对疾病基因进行关联分析的统计方法可以扩充到定位数量性状位点(QTL)。本文扩充了对疾病基因进行关联分析的主成份分析统计量PG咒和熵统计量%。到数量性状,利用选择基因型对QTL进行关联分析。计算机模拟考察了两个统计量的I型错误率.基于10个遗传性血色病(Hereditaryhaemochromatosis)单体型频率的计算机模拟调查了两个统计量的统计功效.结果表明两个统计量PCTt和TGE可以有效地对QTL进行关联分析.  相似文献   

10.
广义Pareto分布函数(GPD,generalized Pareto distribution)是一种针对随机参数尾部进行渐进插值的方法,能够对高可靠性问题进行评估.应用该函数进行随机参数尾部近似时,需要对函数中的两个重要未知参数进行拟合确定.最常用的拟合方法是最大似然拟合和最小二乘拟合,需要将所有的尾部样本进行计算;需要大量尾部样本,计算效率低.该文提出依据少量的分位点进行最小二乘拟合,既保证了尾部样本空间足够大,同时又降低了计算成本;进一步提出了Kriging模型的两阶段更新,实现了分位点求解的快速收敛.算例表明,该文提出的方法能够快速提高模型精度,求得指定的分位点,而且与基于大量尾部样本的最大似然拟合结果精度一致.  相似文献   

11.
指数分布参数最佳仿射同变估计的可容许性   总被引:2,自引:0,他引:2  
本文在截尾样本情况下,证明了双参数指数分布位置参数的最佳仿射同变估计是不容许的另外还得到了关于分位点最佳仿射同变估计的可容许性。  相似文献   

12.
为便于进行数据分析,首先将数据中的位点信息由原来字母编码方式转换为数值编码的方式,根据位点的编码信息和患病信息,采用Logistic回归的方法,找出某种疾病最有可能的一个或几个致病位点,同时采用显著性检验进一步对建立的模型进行检验,证明了建立结果的合理性。此外,通过主成分分析,从原有的300个主成分中取出了225个主成分尽可能多地反映原来基因变量的信息,再通过主成分Logistic回归分析找出与疾病最有可能相关的一个或几个基因。最后,采用典型相关分析找出与相关性状有关联的基因位点。  相似文献   

13.
单核苷酸多态性引起的DNA序列的改变造成了整个生物界染色体基因组的多样性,对SNP的深入研究对于识别人类基因表型和疾病关联具有重要的意义.标签SNP集的选择是生物信息学中的关键问题,少量的标签SNP所代表基因的遗传信息可以大大降低基因分型和全基因组关联研究的成本.本文详细介绍了SNP相关理论以及标签SNP集的选择方法,并针对标签SNP的应用以及未来的研究方向进行了简要分析.  相似文献   

14.
构建了基于二阶段异质随机森林的汽油辛烷值预测模型.首先利用样本-位点信息表知识约简模型,筛选出对汽油辛烷值影响大的位点数据作为第一阶段;然后,利用集成学习思想集成支持向量回归和动态时间序列神经网络,构建异质随机森林预测模型作为第二阶段.利用十折交叉法验证模型精度,结果表明该集成学习算法具有有效性和高精度.  相似文献   

15.
针对目前网络选址研究中大多分别研究中心点和中位点的片面性,分析综合考虑中心点和中位点的网络选址问题.首先提出对中心点和中位点进行综合考虑的问题,然后通过两个具体的实例,分别建立了综合考虑网络选址的中心点和中位点、绝对中心点和绝对中位点的两个模型,并给出了相应的求解方法、步骤和结果.  相似文献   

16.
利用双寿命分布函数交点自由分布检验的新方法,对交叉点分布统计量的小样本情况进行计算尝试,并试图给出该统计量给定显著水平的分位点表格,样本量在32以下.  相似文献   

17.
十五、正态总体方差的区间估计 为构造正态总体方差σ2的置信区间,我们从σ2的点估计即样本方差S2出发,因为我们已知((11—9)式)即 X2服从自由度为n-1的 X2分布.于是对给定的置信度 y =1-a,我们需要确定两个数:x21-a。与x2a/2使则将(15-1)代入上式,经过整理,上式等价于于是σ2的置信度为-α的双侧置信限为: X2称为 X2分布的上侧分位点,对不同的 P值及自由度f,分位点的数值x2(f)可查x2分布表(例如《常用数理统计表》表5). 例15-1设某台装料机包装的重量服从正态分布.随机检查了10包,实际重量的样本标准差为2.5kg,求该装料机所包装的重量的…  相似文献   

18.
从上海市某区386家中小企业申报的15项税收指标数据中筛选出对判定企业纳税情况具有重要影响的10个评价指标,并将全部386个样本分成性质相似的建模样本和测试样本(其中测试样本个数占45%),建立了基于投影寻踪分类(PPC)技术的税务稽查评价模型.与多元线性回归(MLR)、判别分析(MDA)、Logistic和支持向量机(SVM)模型相比,PPC模型的识别错误率最低,建模样本和测试样本的平均分类错误率低于6%,改进型PPC模型包含的评价指标少,两类错误率很接近,非常适用于实际企业的税务稽查评估研究和实践.对339家待判断企业纳税情况的判定结果研究表明,建立的改进型PPC模型具有很好的泛化能力和鲁棒性.  相似文献   

19.
广义非参数似然比检验统计量是一类很广的统计量,包含了众多重要的检验统计量,如Anderson-Darling(AD)等.利用Rubin的随机经验分布函数替代经验分布函数的方法,得到了广义非参数似然比检验统计量的新版本,构造了新的检验统计量.由于新的检验统计量在给定样本下仍然是随机变量,选择了它的分位点和期望作为检验统计量,分别称之为分位点型检验统计量和期望型检验统计量.在简单假设情况下,证明了分位点型检验统计量和期望型检验统计量在固定备择下的相合性.模拟结果显示,在某些备择下,新的检验的功效明显高于原有的基于经验分布函数的检验的功效.  相似文献   

20.
基于贝叶斯统计方法的两总体基因表达数据分类   总被引:1,自引:0,他引:1  
在疾病的诊断过程中,对疾病的精确分类是提高诊断准确率和疾病治愈率至 关重要的一个环节,DNA芯片技术的出现使得我们从微观的层次获得与疾病分类及诊断 密切相关的基因功能信息.但是DNA芯片技术得到的基因的表达模式数据具有多变量小 样本特点,使得分类过程极不稳定,因此我们首先筛选出表达模式发生显著性变化的基因 作为特征基因集合以减少变量个数,然后再根据此特征基因集合建立分类器对样本进行分 类.本文运用似然比检验筛选出特征基因,然后基于贝叶斯方法建立了统计分类模型,并 应用马尔科夫链蒙特卡罗(MCMC)抽样方法计算样本归类后验概率.最后我们将此模型 应用到两组真实的DNA芯片数据上,并将样本成功分类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号