排序方式: 共有15条查询结果,搜索用时 531 毫秒
1.
2.
K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用. 相似文献
3.
基于IFS的图形模拟方法 总被引:2,自引:0,他引:2
首先介绍了图形的自相似性、迭代函数系统(IFS) 和拼贴定理,然后提出了一种将迭代函数系统应用于图形模拟的新方法,拼贴定理保证了模拟的误差是可以控制的,对具有自相似特点的图形,此方法非常有效,且算法实现简单、高效.算法的关键是寻找合适的仿射变换.另外,也可以将此方法用于一般的图形模拟. 相似文献
4.
从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值. 相似文献
5.
研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系.通过构建模型,从理论上证明了以信息熵作为度量标准,ID3算法是最优的,生成的树是最小的,产生的规则数是最少的. 相似文献
6.
变分自编码器(Variational Autoencoders,VAE)是一类重要的学习概率潜在变量的生成模型,然而VAE对复杂模型的表现力较差,生成的图像往往比较模糊.为了解决VAE生成图像模糊的问题,提出一种基于行列式点过程的变分拉普拉斯自编码器(Variational Laplace Autoencoders-Determinantal Point Process,VLAE-DPP)模型,将行列式点过程方法引入变分拉普拉斯自编码器模型,在原始目标函数的基础上添加一项无监督惩罚损失,以此来提高生成图像的质量.VLAE-DPP模型利用行列式点过程来捕获一个与真实数据类似的多样性,然后通过从编码器中提取特征来学习核.最后,训练解码器优化核的伪、实、特征值和特征向量之间的损失,以鼓励解码器模拟真实数据的多样性,从而生成高质量的图像.在Fashion-MNIST,SVHN,CIFAR10数据集上的实验结果表明,VLAE-DPP模型能提高生成图像的质量. 相似文献
7.
大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注.大数据之所以备受关注,是因为大数据里面蕴藏着巨大的价值.如何把蕴藏在大数据中的价值挖掘出来,为企业或政府部门提供决策支持具有重要的意义.大数据给传统的机器学习带来了许多挑战,这些挑战可以从大数据的5个特征或从5个不同的角度进行分析.本文首先介绍大数据的概念,并详细剖析大数据5种特征的内涵;然后在此基础上,重点分析大数据给机器学习带来的挑战及可能的解决方法.本文对从事大数据研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值. 相似文献
8.
9.
结构选择是神经网络研究的热点,文章提出了一种基于相容粗糙集技术的ELM(Extreme Learning Machine)网络结构选择方法,给定一个含有很多隐含层结点的前馈神经网络.该方法用相容依赖度度量隐含层结点的重要性,将不重要的隐含层结点逐一去掉,直到满足预定义的终止条件为止.实验结果表明,该文提出的方法是行之有效的. 相似文献
10.
基于属性值并的权熵思想,通过构建模型,给出了一个属性的某几个属性值并的权熵之和不小于该属性单个属性值的权熵之和的结论,从理论上证明了ID3算法的合理性,为ID3算法提供了理论基础. 相似文献