首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决微阵列数据中因样本量少且每个样本的维度高而带有大量干扰信息和冗余信息的问题, 通过分阶段的步骤对特征基因集进行全方位的选取和优化。考虑到单个基因在不同环境中的差异性, 从中选择出只在特定条件下差异较大的基因构成候选特征集; 剔除候选特征集中相关性较小的基因; 采用遗传算法对所得特征集的任意子集的整体分类性能进行考查, 选出较优的子集。实验结果表明, 该算法对逐步选取特征基因具有可行性和有效性, 而特征基因集在分类适应度(分类能力度量)和分类准确率均比原始数据更好。  相似文献   

2.
针对微阵列癌症数据的特点, 提出一种能识别数据集中误标记样本和异常样本的广义CL stability算法. 该算法以CL-stability为基本算子, 通过样本的全局稳定性识别误标记样本或异常样本. 实验结果表明, 广义CL-stability算法对于识别微阵列癌症数据中的误标记样本优于已有算法, 并能给出区分误标记样本和异常样 本的信息.  相似文献   

3.
赵晚昭  谢聪 《广西科学》2022,29(2):260-268
针对现有基因微阵列数据分类中存在的数据维度高、容易发生过拟合的问题,提出了基于BTLBOGSA(Binary TLBOGSA)与卷积神经网络(Convolutional Neural Network, CNN)的基因微阵列数据分类模型(BTLBOGSA-CNN)。该模型首先针对基因微阵列数据分类时存在的数据维度高的问题,利用新的编码策略,将连续搜索空间转换为二元搜索空间,结合教与学优化(Teaching-Learning-Based Optimization, TLBO)算法的二元变体与引力搜索算法(Gravitational Search Algorithm, GSA)的各自特点,基于BTLBOGSA方法从基因微阵列数据集中选择具有高鉴别性的基因;然后针对基因微阵列数据分类易发生过拟合问题的现象,利用卷积神经网络进行基因微阵列数据的分类。利用公开的基因微阵列数据集进行仿真实验,从TLBO算法与GSA结合的有效性、BTLBOGSA与CNN结合的有效性、BTLBOGSA-CNN与其他已有分类模型相比的有效性3个方面进行对比分析,结果表明,BTLBOGSA-CNN模型可以在较少的特征基因下...  相似文献   

4.
提出了一种新的用于微阵列基因差异表达多重假设检验的统计量计算方法,该方法利用基因表达值到各类样本数据中心的距离作为统计量进行多重假设检验,各统计量之间没有相关性,并且有效地减弱了数据噪声带来的假阳性结果,从而提高了多重假设检验的功效,所选择出的基因集也具有更好的分类能力.  相似文献   

5.
为能够更好地从高特征维度的DNA微阵列数据中挖掘癌症相关基因,实现对恶性肿瘤的分子分型,提出了一种基于演化超网络模型的DNA微阵列数据分类方法?演化超网络是受生物网络启发而建立的一种认知学习模型,其学习过程非常适用于发掘基因间的相互作用?该方法采用信噪比进行基因选择,选择后的基因经归一化后用于演化超网络的学习和分类?通过急性白血病和结肠癌2种数据集进行实验,结果表明,演化超网络在分类精度方面与当前其他方法有较高的可比性?  相似文献   

6.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析.  相似文献   

7.
本文针对数据聚类分析和最优化问题的相似点,用模拟退火算法进行聚类分析。根据数据对象的特征,提出了基于模拟退火的产生函数和迭代方案。通过实例验证,表明该新算法能够有效地解决数据聚类分析问题。  相似文献   

8.
 针对基因表达数据中的高维小样本问题,提出了一种两阶段的识别框架:“偏最小二乘法(PLS)+极大间距准则(MMC)”。该方法首先使用PLS算法提取出带有分类信息的特征,然后使用MMC准则对样本进行分类。在六个公共的基因数据库上与一些常见的基因分类方法相比较,结果显示了该方法对基于基因表达数据的肿瘤分类有效且稳定。  相似文献   

9.
对于许多模式识别问题来说,特征选择是一个非常重要的数据预处理技术,这对于维数高,而样本又相对较小的微阵列数据来说更是如此.提出一种将粒计算与传统的SVM-RFE算法相结合的特征选择算法.这种算法能够有效地去除大部分与分类无关的基因;并且能够搜索到基因数量相对较少而分类能力相对较强的信息基因子集.  相似文献   

10.
DNA 微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于粗糙集的支持向量机基因表达数据分类方法,该方法采用粗糙集进行基因特征约简,运用支持向量机进行数据分类,实验表明其分类效果良好.  相似文献   

11.
基于区间值的模糊聚类分析   总被引:3,自引:0,他引:3  
分析了原有模糊聚类分析中存在的问题,提出了基于区间值的模糊聚类分析方法.该方法用区间值表示各个对象对于每个因素状态的隶属度,在获取了每个对象对于每个因索的特征值后,将其转化为[0,1]上的区间,然后直接在区间的层次上求各个对象间的相似度,在如此求出的相似矩阵的基础上,直接得出聚类的结果.该方法用区间值表示各个对象的属性值,可以更接近于每个对象的客观、真实情况,从而可以更大程度上保留信息.  相似文献   

12.
基于ITAFSVM的微阵列数据特征选择和分类   总被引:1,自引:0,他引:1  
支持向量机已经被成功应用于基因表达谱数据分析。但是,仍有开放问题需要解决:①支持向量机不能自动进行基因表达谱数据的特征选择;②支持向量机的参数优选没有简单有效的办法。一种新型具有良好特性的支持向量机——全间隔自适应模糊支持向量机(TAFSVM)被提出。并且提出一种新的遗传算法——智能遗传算法(IGA)来设计一个TAFSVM分类器,称为ITAFSVM,同时优化TAFSVM参数集和特征选择,并且结合10-fold交叉验证来确定其泛化能力。最后将ITAFSVM应用于四种基因表达谱数据集。通过与进化支持向量机(ESVM)方法、粗糙集与径向基神经网络组合(RBF-RBFNN)方法进行了比较,实验结果表明运用ITAFSVM不仅可以自动进行基因表达谱数据特征选择,而且分类精度和稳定性都较高,速度更快。  相似文献   

13.
李云飞 《科技信息》2007,(15):285-287
本文针对不完全观测数据,讨论了指数分布总体参数的区间估计。主要是利用样本分位数和概率密度函数的核估计来构造枢轴量,并推导出了相应的大样本近似分布,从而得到了总体参数的近似置信区间。而且当精度要求不是特别高的时候,给出了总体参数易于计算的近似置信区间。  相似文献   

14.
 随着现代生物技术的发展,基于基因表达数据的肿瘤分型诊断已成为DNA微阵列的重要应用领域。提出一种基于基因表达数据的肿瘤分型诊断新方法,并在理论上给出模型解释。该方法通过对高斯混合模型加上一个L1惩罚实现了肿瘤分类和信息基因选择的有机结合,从而用较少的变量达到更高的识别率。实验结果显示,无论是在模拟数据中还是五个微阵列数据集中,提出的方法都是高效稳定的。  相似文献   

15.
太空诱变宫颈癌细胞的差异表达基因初探   总被引:2,自引:1,他引:1  
将搭载于“神舟四号”飞船飞行返地后的宫颈癌Caski细胞进行单克隆化,筛选出生长速度快于对照组、编号为44F10的细胞克隆,G1期细胞减少,S期细胞增多,成瘤能力增强;编号为48A9的细胞克隆细胞学行为与之相反,与对照组差异均有显著性(P<0.05)。为了解太空诱变肿瘤细胞生物学行为改变的机制,从分子水平入手研究经太空诱变的宫颈癌细胞和地面对照细胞的差异表达基因。应用含2747个人类肿瘤相关基因的Oligo双通道芯片研究差异表达基因。分别抽提44F10、48A9组和地面对照细胞的总RNA,逆转录cDNA并标记探针。将实验组和对照组cDNA探针混合,分别与同一张芯片杂交后,用不同的波长扫描荧光强度,从而筛选出差异基因。44F10组有16个基因呈现差异表达,48A9组有36个基因呈现差异表达。差异性表达主要涉及细胞凋亡、细胞增殖、细胞周期调控和信号转导的基因。促进细胞增殖的基因在44F10组中表达上调,而在48A9组中限制细胞增殖的基因表达上调。研究表明,太空诱变宫颈癌细胞的差异表达基因导致了细胞生物学行为的改变。  相似文献   

16.
大部分粗糙集学习算法进行性能分析时只考虑到数据集的规模,并不考虑等价类分布等特点.基于数据饱和度和数据浓度这2个数据集特性,对规则生成算法进行分析,通过对比实验说明了数据的饱和度和浓度对规则生成算法性能有重要的影响.  相似文献   

17.
利用PLS-VIP方法筛选差异表达基因   总被引:1,自引:0,他引:1  
提出一种基于变量权重寻找差异表达基因的新方法。该方法的最终目的是从微阵列数据中抽取出核心变量(基因)。将该种方法抽取出的差异表达基因判别样本的能力和普通的PLS方法以及判别最小二乘方法进行比较,结果表明该方法的错误率明显低于其他两种传统方法。因此,PLS-VIP方法是一种较为合适的抽取差异表达基因并判别样本的方法。  相似文献   

18.
一种用于数据挖掘算法的数据生成方法   总被引:1,自引:0,他引:1  
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究.因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟,用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法.使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.  相似文献   

19.
对于区间数,提出了反映决策者心态的心态指标的概念,在此基础上,给出了基于区间值模糊集之聚类分析的两种方法心态分类法、数-区间分类法,对后一种分类法,引入了一种指标,并用它对其分类结果的可信度进行了定量分析.  相似文献   

20.
通过MA图和箱线图比较归一化前后miRNA微阵列数据分布情况的变化,用K-S检验和均方误差来评估6种归一化方法的优良性.结果显示,对于miRNA微阵列数据而言,局部加权回归方法和分位数归一化方法比其它方法效果更好,其中又以局部加权回归方法的效果最佳.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号