共查询到20条相似文献,搜索用时 15 毫秒
1.
单细胞转录组测序数据中蕴含着丰富的细胞异质性表达信息,但也包含大量的冗余信息.降维不仅可以提取单细胞转录组测序数据内部的本质结构,减少冗余和噪声造成的误差,还可以为细胞聚类、基因富集分析、细胞发育轨迹推断等提供重要依据.本文介绍了基于流形学习、非负矩阵分解以及深度学习的非线性降维方法及其在单细胞转录组测序数据中的应用. 相似文献
2.
《数学的实践与认识》2017,(21)
运用多重检验方法对高维数据进行推断统计分析.首先将最小一乘估计算法应用在多重检验分析中,构造出新的估计真实零假设个数的方法.其次对最小一乘与最小二乘方法估计真实零假设个数的准确性进行模拟比较分析,模拟结果表明前者较后者估算结果更准确.最后,将上述估计方法应用于乳腺癌微阵列数据的分析中寻找有表达差异的基因.检验结果共找到118个差异基因,其中85个基因在生物学上是有效基因,实证表明该方法具有一定的实用性. 相似文献
3.
提出一种基于基因表达谱数据筛选差异表达基因的新方法;介绍了筛选差异表达基因常见方法-错误发现率方法(False Discovery Rate,FDR,),分析了多重假设检验p值性质,并根据p值性质提出了一种筛选差异表达基因新方法-单位γ度量法(Unit Measure-γ,UM-γ),建立了计算机模拟基因表达谱数据模型,制定了假阴性率、假阳性率、灵敏度、特异度以及总体错误率等作为考核指标,并使用基因表达谱模拟数据进行计算、比较;单位γ度量法估计非差异表达基因个数具有较高的稳定性和准确性;单位γ度量法既能够同时控制假阳性、假阴性以及总体错事件的发生,又能在一定程度上提高筛选结果的灵敏度和变异度;新提出的方法能有效、准确且稳定的对模拟数据差异表达基因进行筛选. 相似文献
4.
本文主要研究分组数据分位数回归模型的变量选择和估计问题.为了充分反映数据的分组信息,需要假定每组数据的回归系数可以分解成共性部分和分组后的个性部分.为了进行变量筛选,本文提出分解系数的Lasso估计,并进一步提出了自适应Lasso估计.在处理相应优化问题时,采用了变换观测矩阵的方法简化问题求解.本文给出了自适应Lasso估计的Oracle性质证明,并且通过数值模拟研究展示了所提方法的有限样本表现.最后,将此方法应用到乳腺浸润癌致病基因的变量筛选上来展示所提方法的实际应用表现. 相似文献
5.
为了探讨高维基因芯片基因表达谱数据筛选差异表达基因的方法,分析比较t检验法、秩和检验法、BON法、SIDAK法及ALSU法5种算法的差异表达基因筛选效率;采用模拟实验对t检验法、ALSU法等5种算法进行比较,并使用第一类、第二类错误率、总体错误率、筛选差异表达基因数及其均方根误差等5种指标进行评价;t检验法、秩和检验法计算结果过于灵敏,筛选差异表达基因个数较多,会促使筛选差异表达基因中假阴性事件的发生,BON法、SIDAK法筛选结果过于保守,筛选的差异表达基因个数较少,假阳性事件发生率较为显著,ALSU法能较稳定的抑制第一、二类错误率的发生,同时ALSU法筛选结果受系统扰动误差影响较笺LSU方法能够稳定的、高效的筛选差异表达基因,在使用高纬基因表达谱数据筛选差异表达基因时应首选ALSU法. 相似文献
6.
针对三维点云数据在获取过程中会包含噪声,影响下游任务精度的问题,文章提出了一种基于Transformer和多尺度的点云去噪方法.利用多尺度提取邻域特征,通过使用基于偏移注意力的Transformer网络获取局部和全局信息,增强特征提取能力.此外,为了更好地保护尖锐特征,引入了投影损失.文章不仅在合成数据上进行评估,还在真实扫描数据上进行测试.实验表明,文章方法在定量和定性方面均取得了良好的结果. 相似文献
7.
文章基于可加风险模型假设,采用偏最小二乘回归和有监督的主成分回归两种投影降维方法,研究了高维协变量情况下现状数据的降维问题。通过深入地模拟试验,对比两种降维方法在高维相关现状数据的生存预测方面的表现,最后将两种降维方法结合实际数据集进行实证分析。模拟和实证结果表明这两种降维方法能很好地处理具有高维、强相关协变量的小样本数据集,比如基因微阵列数据。在后续的研究中,有望将现状数据扩展至其它更一般的区间删失数据。 相似文献
8.
多变量样本的图分析法(二) 总被引:3,自引:0,他引:3
方开泰 《数学的实践与认识》1981,(4)
<正> 这种作图法是将R~p空间的一个点化为平面上一条曲线.这条曲线保留了原数据的全部信息.这个方法最早由Andrews,D.F.提出.设原数据为 相似文献
9.
基因表达数据蕴含着大量的生物信息,在生物基因信息研究中,筛选表达水平发生显著变化的差异基因是认识疾病形成机理和辅助靶点药物研究的关键问题.根据急性髓细胞白血病(AML)的基因表达数据,构造基因均值差序列,建立贝叶斯分层混合模型,并为模型的参数赋予具有基因生物特征的先验信息.采用马尔可夫链蒙特卡洛(MCMC)算法对模型参数进行估计,并筛选出急性髓细胞白血病差异表达基因.在实际数据分析中,从美国生物信息中心(NCBI)的高通量基因表达数据库中获取急性髓细胞白血病基因数据集,从经过非特异滤波预处理的14688个急性髓细胞白血病基因中筛选出711个差异表达基因,差异表达基因数仅占急性髓细胞白血病基因总数的4.84%,这一结果与基因差异表达的生物学原理相吻合. 相似文献
10.
11.
为了提高癌细胞识别正确率,弥补机械地以划定数值界限做出判决的缺陷,提出了利用直觉模糊集的概念和方法,并结合医生的先验细胞识别知识,进行癌细胞识别.建立了细胞样本集到症状集,症状集到诊断分类集上的直觉模糊关系.根据合成运算,得到了判断细胞样本所属诊断分类集上的肯定,否定,犹豫程度.最后通过一个示例的学习过程表明,方法能够达到正确识别分类,是合理有效的.并且可以根据医生新的实践经验做出相应的调整,此方法可进行不断地学习,直至达到满意的结果. 相似文献
12.
纵向数据下广义估计方程估计 总被引:1,自引:0,他引:1
广义估计方程方法是一种最一般的参数估计方法,广泛地应用于生物统计、经济计量、医疗保险等领域.在纵向数据下,由于组间数据是相关的,为了提高估计的效率,广义估计方程方法一般需要考虑个体组内相关性.因此,大多数文献对个体组内的协方差矩阵进行参数假设,但假设的合理性及协方差矩阵估计的好坏对参数估计效率产生很大影响,同时参数假设也可能导致模型误判.针对纵向数据下广义估计方程,本文提出了改进的GMM方法和经验似然方法,并对给出的估计量建立了大样本性质.其中分块的思想,避免了对个体组内相关性结构进行假设,从这种意义上说,这种方法具有一定的稳健性.我们还通过两个模拟的例子,考察了文中提出估计量的有限样本性质. 相似文献
13.
通过改变数据填充方式重新对筛选试验进行可靠性评估.在填充数据的方法上选择等分位点数据填充算法,使得改进后的算法所得的虚拟完全数据更接近于真实的完全数据.最后对所提出的筛选试验情形下可靠性评估方法进行了模拟验证. 相似文献
14.
李望月 《数学的实践与认识》2014,(9)
基于2008年经济普查的数据,从描述统计分析和回归分析两方面分别对微观数据和宏观汇总数据在统计分析上的差异进行了实证分析.在描述统计分析中发现,宏观汇总数据比微观数据更接近正态分布,但对数化处理后的数据并非如此;在回归分析中发现,基于微观数据和宏观汇总数据估计的生产函数,在消除异方差和多重共线性之前,无论是在生产函数的规模效应、生产要素的贡献率以及生产要素对产出的解释力度上均存在着差异,但是在消除异方差和多重共线性之后,在要素对产出的解释力度上仍存在很大差异. 相似文献
15.
《数学的实践与认识》2020,(3)
医学研究表明约30%的扩张型心肌病与遗传因素有关,因此从基因水平寻找其病因及发病机制越来越引起国内外学者的重视.采用针对超高维数据的序贯模型平均(SMA)方法对扩张型心肌病转基因小鼠微阵列数据建立回归模型,确定哪些基因对小鼠中G蛋白偶联受体的过表达有影响从而导致小鼠的心肌病,结果发现Msa.2877.0,Msa.741.0,Msa.768.0和Msa.2604.0四个基因是影响小鼠扩张型心肌病的主要基因,且SMA对该数据的拟合和预测都明显优于以往常用的SIS,L2boost及Lasso等变量选择方法.研究结果对进一步了解人类心脏病的发病机理有一定的借鉴意义. 相似文献
16.
对具有随机误差的观测数据, 讨论了常系数线性常微分方程参数稳定性的统计推断问题. 通过残差项的Karhunen-Loeve 分解, 给出了变点检验步骤及其在原假设下的极限分布. 在对立假设下定义了变点的估计, 证明了检验以及估计的一致性. 对常系数二阶常微分方程进行了统计模拟, 结果表明原假设下的极限分布是对真实分布非常好的近似; 对立假设下, 即使输入函数的频率存在0.75% 的变化, 上述检验也能以大概率拒绝原假设. 最后利用上述方法研究了英国中部地区的气温数据, 揭示了数据一些新的特点. 相似文献
17.
《数学的实践与认识》2013,(21)
在实际的调查数据和实验数据中,经常会出现数据缺失的问题,插补方法是处理缺失数据的一种常用的技术方法.对于目标变量是二分类的定性变量时,可以采用Logistic回归插补法进行插补,采用一套高中生进入大学学习影响因素分析的模拟数据进行实证分析,探讨了Logi8tic回归插补法的一些特点. 相似文献
18.
19.
GLRT和LS_SVM应用于基因表达数据分类 总被引:1,自引:0,他引:1
为快速、准确地对基因芯片表达数据进行分类,提出了一种新型的基因芯片表达数据分类模型.该模型首先使用广义似然比检验(GLRT)有效鉴别出表达有显著性差异的基因.然后,将这些表达有显著性差异的基因用于最小二乘支持向量机(LS_SVM)的训练,从而建立了基于GLRT+LS_SVM的基因芯片表达数据分类模型.该模型在处理数据量大、维数高、样本量小、非线性等特点的基因芯片数据时有很大优势,可以广泛用于处理基因芯片数据. 相似文献