首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

2.
选取上证指数、上证基金的日收益率数据,根据Sklar提出的Copula理论,刻画随机变量间相关性的信息,用于描述金融市场间的相关模式.首先针对二维变量,通过比较参数法与非参数法拟合的优度来确定边缘分布,从而选择合适的Copula函数来刻画二者之间的相关性,最后对模型进行评价.  相似文献   

3.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

4.
在医学科研与其它科研领域中,聚类分析方法已有广泛的应用.聚类分析包括两个内容:样品聚类与指标聚类,本文试图充实后一个内容.指标聚类的依据是相似系数,常用的相似系数是简单相关系数[1],从而导出了指标聚类的最大相关系数法和最小相关系数法.最大相关系数与最小相关系数均不能很好地反映两类指标间的相关关系,因此简单相关系数作为相似系数有一定的局限性,有可能使指标聚类结果无法解释.典型相关系数是简单相关系数的直接推广,它能较好地描述两类指标间的相关关系,自然可以用典型相关系数作为指标聚类的相似系数. 一、典型相关系数[2’3]…  相似文献   

5.
《数理统计与管理》2014,(4):634-641
基于Hausdorff距离用于定义两个紧集之间距离的考虑,将区间数视为一个紧集,定义了区间数之间的距离,并研究了区间向量的距离,从而得到聚类分析中两个样品间的距离。进一步定义了两个类之间的Hausdorff距离。为消除量纲对聚类结果的影响,研究了区间数据的标准化。基于此,给出了区间数据系统聚类算法。采用随机模拟的方法,对文中方法进行有效性评价,结论表明,Hausdorff距离法的聚类有效性在所有设计的实验条件下都要优于传统的欧式距离法。最后,基于符号数据分析的思想构造区间数据,给出了对多种动物群体按其身高、体重等生理特征进行聚类分析的算例。  相似文献   

6.
《数理统计与管理》2019,(6):1026-1036
面板数据向量自回归模型(PVAR)研究中,相关性问题是热点研究问题。PVAR的相关性源于两个方面,一方面,模型设定中,变量受自身动态过程影响,变量间存在内生关系,另一方面指截面之间存在空间相关性。由于内生关系与截面相关性导致残差项之间存在相关性。本文研究存在截面相关性的PVAR模型,检测残差相关性,将数据从残差项相关性上进行分类,类内有相同或者相似的残差相关关系,研究每一个类内存在截面相关情形的模型估计,研究模型总体的参数估计以及格兰杰因果检验,本文提出的估计方法更有效,蒙特卡罗模拟结果显示,本文提出的估计方法有更好的拟合效果。  相似文献   

7.
引入了左R-模M关于可解模类X以及内射余生成子W的同调维数.给出了M的X-分解维数有限的几种刻画,进而讨论了M的这两种维数之间的关系.研究了相对于有限W-分解维数的模的稳定性以及相对于模类X的模的稳定性.  相似文献   

8.
二维有序样本的有约束系统聚类   总被引:4,自引:0,他引:4  
二维有序样本进行聚类必须满足两个要求:(1)类内各单元的相似性和类间的差异性;(2)各单元在位置上的有序性和类内的连通性。根据这些要求,将各单元观测指标间的距离矩阵作为聚类的指示矩将各单元之间的区位联系矩阵作为聚类的约束矩阵,在约束矩阵给出的约束条件之下,以类间单元指标的最大距离作为类间相似性指标,在指示矩阵中通过逐步聚并而将全部单元合并归类,即可得出满足要求的样本分类。  相似文献   

9.
在台风路径预报中,通常使用的统计方法都没有涉及自变量场与预报量场之间的整体相关关系.典型相关分析则是从两组变量的相关性着手,把原来较多的变量归结为少数几个典型变量,且通过研究这少数几个典型变量的典型相关系数,来揭示两组变量之间的整体相关关系. 我们用典型相关分析从因子场提取的典型变量,试作台风路径预报所用的资料如下: 台风的起始预报区域由下列四点组成:  相似文献   

10.
考虑了障碍集Lyndon字串组成的代数,利用Lyndon字串的组合特性,刻画了这类代数的整体维数和Gelfand-Kirillov维数等不变量.  相似文献   

11.
One of the most promising approaches for clustering is based on methods of mathematical programming. In this paper we propose new optimization methods based on DC (Difference of Convex functions) programming for hierarchical clustering. A bilevel hierarchical clustering model is considered with different optimization formulations. They are all nonconvex, nonsmooth optimization problems for which we investigate attractive DC optimization Algorithms called DCA. Numerical results on some artificial and real-world databases are reported. The results demonstrate that the proposed algorithms are more efficient than related existing methods.  相似文献   

12.
分析了函数型数据主成分分析的原理。在此基础上,提出了一种函数型数据的聚类分析方法,以及在低维空间对原始高维数据进行直观表达的方法。给出了函数型数据的距离定义,并分析了这种距离的定义与欧氏距离的关系。提出函数型数据聚类分析的新方法:1)通过变换把离散数据转化为函数数据;2)进行函数型主成分分析;3)利用提取的前几个主成分构成低维空间,在该低维空间中,采用普通的聚类方法进行聚类分析。采用人体肢体多普勒超声血管造影的数据对所提出的方法的合理性进行验证。结果表明该方法可以有效地对函数型数据进行分类,分类结果与专家临床结论相符,因而有助于临床上对样本做客观判断。该方法不依赖专家的经验判断,且计算过程简便,易于计算机实现及临床应用。  相似文献   

13.
话题发现是网络社交平台上进行热点话题预测的一个重要研究问题。针对已有话题发现算法大多基于传统余弦相似度衡量文本数据间的相似性,无法识别各维度取值成比例变化时数据对象间的差异,文本数据相似度计算结果不准确,影响话题发现正确率的问题,提出基于双向改进余弦相似度的话题发现算法(TABOC),首先从方向和取值两个角度改进余弦相似度,提出双向改进余弦相似度,能够区分各维度取值成比例变化的数据对象,保留传统余弦相似度在方向判别上的优势,提高衡量文本相似度的准确性;进一步定义集合的双向改进余弦特征向量和双向改进余弦特征向量的加法等相关定义定理,舍弃无关信息,直接计算新合并集合的特征向量,减小话题发现过程中的时间和空间消耗;还结合增量聚类框架,高效处理新增数据。采用百度贴吧数据进行实验表明,TABOC算法进行话题发现是有效可行的,算法正确率和时间效率总体上优于其他对比算法。  相似文献   

14.
Kernel canonical correlation analysis (KCCA) is a procedure for assessing the relationship between two sets of random variables when the classical method, canonical correlation analysis (CCA), fails because of the nonlinearity of the data. The KCCA method is mostly used in machine learning, especially for information retrieval and text mining. Because the data is often represented with non-negative numbers, we propose to incorporate the non-negativity restriction directly into the KCCA method. Similar restrictions have been studied in relation to the classical CCA and called restricted canonical correlation analysis (RCCA), so that we call the proposed method restricted kernel canonical correlation analysis (RKCCA). We also provide some possible approaches for solving the optimization problem to which our method translates. The motivation for introducing RKCCA is given in Section 2.  相似文献   

15.
区间型符号数据是一种重要的符号数据类型,现有文献往往假设区间内的点数据服从均匀分布,导致其应用的局限性。本文基于一般分布的假设,给出了一般分布区间型符号数据的扩展的Hausdorff距离度量,基于此提出了一般分布的区间型符号数据的SOM聚类算法。随机模拟试验的结果表明,基于本文提出的基于扩展的Hausdorff距离度量的SOM聚类算法的有效性优于基于传统Hausdorff距离度量的SOM聚类算法和基于μσ距离度量的SOM聚类算法。最后将文中方法应用于气象数据的聚类分析,示例文中方法的应用步骤与可操作性,并进一步评价文中方法在解决实际问题中的有效性。  相似文献   

16.
In data science, data are often represented by using an undirected graph where vertices represent objects and edges describe a relationship between two objects. In many applications, there can be many relations arising from different sources and/or different types of models. Clustering of multiple undirected graphs over the same set of vertices can be studied. Existing clustering methods of multiple graphs involve costly optimization and/or tensor computation. In this paper, we study block spectral clustering methods for these multiple graphs. The main contribution of this paper is to propose and construct block Laplacian matrices for clustering of multiple graphs. We present a novel variant of the Laplacian matrix called the block intra‐normalized Laplacian and prove the conditions required for zero eigenvalues in this variant. We also show that eigenvectors of the constructed block Laplacian matrix can be shown to be solutions of the relaxation of multiple graphs cut problems, and the lower and upper bounds of the optimal solutions of multiple graphs cut problems can also be established. Experimental results are given to demonstrate that the clustering accuracy and the computational time of the proposed method are better than those of tested clustering methods for multiple graphs.  相似文献   

17.
We introduce the notion of multiscale covariance tensor fields (CTF) associated with Euclidean random variables as a gateway to the shape of their distributions. Multiscale CTFs quantify variation of the data about every point in the data landscape at all spatial scales, unlike the usual covariance tensor that only quantifies global variation about the mean. Empirical forms of localized covariance previously have been used in data analysis and visualization, for example, in local principal component analysis, but we develop a framework for the systematic treatment of theoretical questions and mathematical analysis of computational models. We prove strong stability theorems with respect to the Wasserstein distance between probability measures, obtain consistency results for estimators, as well as bounds on the rate of convergence of empirical CTFs. These results show that CTFs are robust to sampling, noise and outliers. We provide numerous illustrations of how CTFs let us extract shape from data and also apply CTFs to manifold clustering, the problem of categorizing data points according to their noisy membership in a collection of possibly intersecting smooth submanifolds of Euclidean space. We prove that the proposed manifold clustering method is stable and carry out several experiments to illustrate the method.  相似文献   

18.
Summary  In the last decade, factorial and clustering techniques have been developed to analyze multidimensional interval data (MIDs). In classic data analysis, PCA and clustering of the most significant components are usually performed to extract cluster structure from data. The clustering of the projected data is then performed, once the noise is filtered out, in a subspace generated by few orthogonal variables. In the framework of interval data analysis, we propose the same strategy. Several computational questions arise from this generalization. First of all, the representation of data onto a factorial subspace: in classic data analysis projected points remain points, but projected MIDs do not remains MIDs. Further, the choice of a distance between the represented data: many distances between points can be computed, few distances between convex sets of points are defined. We here propose optimized techniques for representing data by convex shapes, for computing the Hausdorff distance between convex shapes, based on an L 2 norm, and for performing a hierarchical clustering of projected data.  相似文献   

19.
《Optimization》2012,61(3):371-384
In this article, we propose two successive search methods for solving a canonical DC programming problem constrained by the difference set between two compact convex sets in the case where the dimension number is greater than or equal to three. In order to find feasible solutions, the algorithms generate the directions based on a branch and bound procedure, successively. By exploring the provisional solutions throughout the intersection of the boundaries of two compact convex sets, both algorithms calculate an approximate solution.  相似文献   

20.
针对协同过滤推荐系统具有数据的高稀疏,高维度,数据量大的特点,本文将灰色关联聚类与协同过虑推荐算法相结合,构建了灰色关联聚类的协同过滤推荐算法,将其应用到协同过滤推荐系统中,以解决数据具有高稀疏高维度的特性情况下的个性化推荐质量问题。首先,定义了推荐系统中的用户项目评分矩阵,用户灰色绝对关联度,用户灰色相似度,用户灰色关联聚类。然后,给出了灰色关联聚类的协同过滤推荐算法的计算方法和步骤,同时给出了评价推荐质量方法。最后,将本文算法与基于余弦,相关分析及修正的余弦等协同过滤推荐算法在大小不同的数据集下进行了实验,实验表明灰色关联聚类的协同过滤推荐算法相较于传统的协同过滤推荐方法具有推荐质量高,计算量小,对数据大小要求不高等优点,同时在推荐系统的冷启动,稳定性和计算效率方面也具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号