首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
旨在通过考虑特征词汇的潜在语义和自身的重要性来提高文本聚类效果,研究基于RI方法的文本向量表示方法。首先,对基于RI方法构建的特征词汇随机索引向量中+1和-1向量元素出现位置进行约束,以避免在构建特征词汇上下文向量时可能造成该特征词汇潜在语义丢失现象;其次,在生成文本向量时考虑特征词汇自身重要性来改进权值的计算;最后,在测试数据上对基于RI方法的文本向量表示进行聚类效果测试与对比分析,结果表明采用基于RI方法能提高文本聚类效果。  相似文献   

2.
基于混合遗传聚类的Web日志挖掘   总被引:3,自引:0,他引:3  
通过对Web日志文件进行分析,提出了一种用混合遗传聚类对Web用户的行为进行分析的方法,混合遗传聚类是标准遗传算法和K-中心点算法的有机结合.实验证明,该方法是一个具有全局最优解的聚类方法,其结果明显优于标准遗传聚类方法.该算法能够有效地剔除噪音,得到很好的用户聚类和页面聚类的结果,为网站的管理者设计个性化的商务网站提供了有效的决策依据.  相似文献   

3.
针对持续恶化的Android安全形势,从恶意软件检测的角度,首先总结了Android恶意软件在安装、触发和恶意负载方面的特征和发展趋势;以此为基础,结合Android平台特性和移动智能终端环境限制,系统化论述了现有Android恶意软件分析与判定技术,指出了权限分析、动态分析和静态分析的实现方法及其优缺点;介绍了基于特征值和基于启发式的恶意软件判定方法.最后,根据已有Android恶意软件检测研究的不足,提出了未来的研究方向和发展趋势.  相似文献   

4.
任何可执行文件都必须满足一定的结构特征.本文以Windows平台下的PE文件为研究对象,从PE头、节头、节代码出发,给出了17个结构特征;针对给定正常软件和各类恶意软件,获得了这些属性取值分布特征;采用多类数据挖掘分类技术获得了正常软件与恶意软件的判定规则.实验结果表明,C5.0的分类算法检测准确性最好,达到94.16%.这些规则可以为软件可信性度量提供依据.  相似文献   

5.
基于数据挖掘的方法,设计和实现了两种复合聚类的算法,并对图像特征库按此算法建立了索引结构,形成了图像的索引库,通过实验,结果显示聚类方法具有很大的应用潜力.  相似文献   

6.
基于自组织特征映射(SOM)网络对潜在客户的挖掘   总被引:1,自引:0,他引:1  
通过自组织特征映射网络(SOM)帮助市场分析人员对消费者的消费记录进行分析,从而概括出每一类消费者的消费模式。实现对消费群体的区分和对潜在客户的挖掘。SOM神经网络是一种基于模型的聚类方法。该网络通过对样本数据实施标准化、规范化的规定,将每条样本数据看作为一个基因数据,通过对基因数据的聚类,找出功能相似的基因。从而达到对潜在客户的挖掘。抽取一定量的样本数据,通过Matlab平台建立一个SOM人工神经网络对数据进行训练,结果可以发现当训练步骤达到一定量的时候,样本数据向不同的“中心点”聚集,最后达到聚类的效果,从而发现一些容易被忽视的点,也就是潜在客户。  相似文献   

7.
面临大数据稀疏的严峻形势,物流客户资源的优化工作急需适用的聚类方法.本文基于信息熵、互信息、资源距离熵和优势评价等问题,设计物流客户资源的关联性分布估计、原子行为资源遴选、资源聚类和优势客户检测等算法,给出了信息熵架构下的物流资源优化聚类模型.通过实践验证,本模型具有高效遴选优势资源的效能,能为物流客户资源优化工作,提供可靠的适用性方案.  相似文献   

8.
在恶意软件分类中,针对新出现的恶意软件样本数量少导致分类准确性低的问题,提出了一种基于参数优化元学习和困难样本挖掘的方法.首先,将恶意软件反编译得到二进制文件,进而转化为灰度图.然后,使用参数优化元学习在多个任务上训练模型,获得浅层神经网络的初始化参数,并在此基础上,根据测试集中的少量任务来微调模型.同时,结合困难样本...  相似文献   

9.
提出了一种基于小波变换和均值聚类的实时车牌定位算法,根据车牌字符的纹理特征,在小波变换域中结合均值聚类自适应动态阈值取得字符信息,然后通过连通区域分析,结合车牌的宏观特征对车牌进行定位,试验证明,该算法准确率高,抗干扰性强。  相似文献   

10.
针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法。实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比。  相似文献   

11.
基于自组织特征映射聚类算法的研究与应用   总被引:2,自引:0,他引:2  
讨论了基于自组织特征映射网络聚类算法的基本原理,并给出了基于关系数据库的具体实现方法,通过对实例的具体测试,证明算法是有效的,并对算法的参数进行了讨论.  相似文献   

12.
针对传统图论聚类算法对初始聚类中心的敏感性以及聚类结果与样本输入次序等问题,提出了基于遗传算法进行图论聚类分析的基本原理和实现方法.实验结果表明,遗传算法应用于图论聚类分析能够搜索到更为精确的聚类中心值,其结果明显好于传统图论聚类算法.  相似文献   

13.
鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术, 并且与监督学习不同的是聚类分析中没有类别或标签的指导信息, 所以如何选择合适的聚类个数(即模型选择)一直是聚类分析中的难点. 由此提出了一种基于Dirichlet过程混合模型的聚类算法, 并用collapsed Gibbs采样算法对混合模型的参数进行估计. 新算法基于非参数贝叶斯模型的框架, 能够在不断的采样过程中优化模型参数并形成合适的聚类个数. 在人工合成数据集和真实数据集上的聚类实验结果表明: 基于Dirichlet过程混合模型的聚类算法不但能够自动确定聚类个数, 而且具有较强灵活性和鲁棒性.  相似文献   

14.
工作流日志体现系统的实际执行情况,工作流过程模型则是对系统流程的一种静态描述.工作流建模方法以及过程挖掘技术将系统执行日志与系统模型联系在一起,日志与过程模型的一致性问题在各种应用领域已经越来越重要,但是现在并没有很好的方法去分析一致性.针对这一问题,定义了日志与模型的一致性的概念,并根据日志与模型的相互关系,提出了两个评价指标:日志匹配性和行为一致性,并给出了相应的评价方法.该方法可以有效地评估工作流日志与工作流模型之间的一致性程度.  相似文献   

15.
谱聚类DCUT算法能在任意形状的样本空间上聚类且收敛于全局最优解,但其缺点是计算相似度矩阵和特征向量的复杂度较高.为了提高了DCUT的算法速度,提出了基于SLIC的DCUT算法(SDCUT).SDCUT算法首先采用SLIC算法分割图像成超像素,再根据任意两个超像素的归一化直方图计算Pearson系数作为超像素之间的相似度,从而建立基于超像素的相似度矩阵,最后采用DCUT算法对超像素进行分类获得最终分割结果.在一系列图像上的实验结果表明,与几种经典谱聚类算法相比,本文方法的分割速度更快,且具有较好的分割效果.  相似文献   

16.
针对三维模型的无监督聚类问题,目前广泛采用基于词袋的方法具有两大缺陷,既无法准确知道聚类的数目,也不能适用于结构复杂(比如呈流形结构)的形状空间.为此,本文采用两大方法加以改进,其一利用有流形聚类功能的决策图方法取代K-means,其二使用核函数更加有效地衡量三维形状之间的差异.在SHREC2010库和SHREC2011库上的大量实验结果表明,两种技巧的有机结合使聚类的精确度和效率得到了显著的提升.  相似文献   

17.
传统k-中心点聚类算法初始中心点的选取直接影响算法效率和稳定性,易使算法陷入局部最优解,从而影响在带时序群体分析的聚类应用效果.本文提出了一种基于密度信息的k-中心点算法,通过获取样本密度信息来选取初始中心点,有效解决了聚类结果对初始中心点选择的依赖性问题,并应用于雷暴聚类中.雷暴聚类评估实验结果表明了改进算法的有效性.  相似文献   

18.
针对宁波市公共自行车网点数量增加而新使用者增量和日周转率呈现下行的趋势, 对网点数量和布局进行分析和建模. 首先, 通过K-means聚类方法对不同网点按日周转率进行分类, 结果发现日周转率在4以下的低效网点高达52.86%, 低于0.5的网点占9.73%, 而在15以上的超负载网点占2.5%, 两极分化现象非常明显. 其次, 讨论了宁波市城市公共自行车专项规划中基于面积和服务人口的网点数量预测模型的不足之处. 最后, 以较为成熟的城市公交线路为基础, 通过统计各公交站点的人流密集度, 提出了基于人流密集度的网点数量与布局预测模型, 并给出了网点在空间上的布局. 同时指出各城市公共自行车网点数量与布局问题既有发展共性又有地域个性, 基于公交线路人流密集度模型具有普适性价值.  相似文献   

19.
K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用"极限点"原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势.  相似文献   

20.
基于人工神经网络的多媒体语音特征挖掘   总被引:1,自引:1,他引:0  
提出了一种基于人工神经网络的聋儿语音训练识别的多媒体特征挖掘技术 .构造了邻域三层神经元合作竞争的动态行为神经元模型 ;实验选取了动态递减函数、动态最小覆盖矩阵和动态确定阈值形成的 SOL A挖掘算法 ;以及聚类分布的网络图技术 .解决了聋儿语音训练系统中基本语音识别的难题 .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号