首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用"极限点"原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势.  相似文献   

2.
针对目前搜索引擎引擎系统存在的数据量庞大、访问用户高并发性和搜索延迟性的特点,提出了基于云存储的文档索引分类存储模型,并在索引数据分类存储算法实现过程中,采用基于Map/Reduce编程模型的二次索引词权重计算,以降低分类过程中的模糊粒度.通过实验验证基于该存储模型的算法不仅可以提高海量数据索引库的数据处理效率,而且在一定程度上降低了检索系统查询延迟,提高了搜索效率.  相似文献   

3.
提出了一种基于遗传算法与多层感知神经网络的调制识别方法,运用改进遗传算法优化的多层感知神经网络分类器对各种调制信号的特征矢量进行分类识别.利用遗传算法的高效全局特性,克服了传统BP算法易于陷入局部最优解的缺点,同时在遗传算法基础上增加梯度下降算子,加快了收敛速度,使得分类器的识别率、收敛速度和鲁棒性得到明显改善,仿真实验的结果证明了此方法的有效性和可行性.  相似文献   

4.
针对传统地下目标识别算法中特征提取方法的缺陷,鉴于深度学习中的卷积神经网络(CNN)能自动从数据中提取特征,但CNN自带的分类器不能很好的解决非线性分类问题,由于SVM具有良好的泛化分类能力,为此提出基于CNN-SVM的地下目标形状识别方法。本文首先在地表面光滑场景下,利用该方法对地下圆形和矩形目标识别,然后加大场景难度,在地表面粗糙场景下进行地下目标形状识别。实验结果表明,相比传统人工设计的特征分类方法,该算法利用CNN自动提取的特征联合SVM提高了CNN的分类准确率,并且在两种场景下都具有更高的地下目标识别精度。  相似文献   

5.
针对传统机器学习方法对植物叶片图像分类识别率不高的问题,探讨了基于深度稀疏自编码网络(Deep Sparse Autoencoder Network,DSAN)的植物叶片分类研究。自动编码器通过编码和解码重构输入数据,对植物叶片进行分层特征学习,在自动编码器上添加稀疏限制,对隐含层神经元进行压缩,从而学习到更高层的隐含特征用于分类,解决了因选取的特征表达不足导致网络模型分类性能不佳的问题。实验采用公开的植物叶片图像数据库MalayaKew(MK)作为研究对象,该数据集包含44类植物。将预处理之后的叶片图像直接作为输入数据,通过DSAN学习到叶片的高层特征,结合Softmax分类器用于分类。实验结果表明,该算法能够有效提高植物叶片图像的分类精度,在植物分类领域具有一定的应用价值。  相似文献   

6.
提出了一种基于变分推断的高斯混合模型的图像分割算法. 该算法首先用贝叶斯混合高斯模型对图像的特征进行建模, 并针对模型的参数学习问题, 利用变分推断算法估计模型的参数及其后验概率; 这种方法比采样法的计算量更少, 而且能够根据图像数据自动优化混合个数, 实现了模型的自动选择. 最后, 该算法在Berkeley的自然图像集上进行的实验结果与经典的图像分割算法进行了比较, 结果表明此方法得到的图像分割结果精度较高, 具有较好的性能.  相似文献   

7.
为了实现对大规模流程模型库的高效检索,本文提出一种基于两级索引(节点索引和边索引)的流程模型库检索(简称流程检索)算法.该算法通过节点索引过滤大规模流程模型库,得到候选模型集,由动态构建的边索引对候选模型集进行第二次过滤,应用子图同构算法对两次过滤后的候选模型进行验证.为进一步加速流程检索过程,将该算法与并行计算模式相结合,提出一种检索效率更高的多路并行检索算法.实验结果表明,本文提出的算法可以显著提高大规模流程模型库的检索效率.  相似文献   

8.
针对传统入侵检测方法在高维海量数据且类别分布不均衡的环境下检测性能较差的问题,提出一种流量异常检测方法SSAE-IWELM-AdaBoost,该方法基于堆叠稀疏自编码网络(stacked spare auto encoder,SSAE)并融合改进加权极限学习机(weighted extreme learning machine,WELM)。该方法首先使用堆叠稀疏自编码网络直接从原始流量数据中自动学习并提取特征,获取原始数据的低维抽象表示,然后以WELM作为集成算法(AdaBoost)的基础分类器,利用修改的训练样本权值分配规则和基分类器权值更新公式迭代训练基分类器,通过加权投票表决的方法得到最优强分类器完成网络攻击流量的识别。在UNSW-NB15数据集上进行仿真实验,实验结果表明,SSAE-IWELM-AdaBoost算法可以提高整体的检测精度以及小样本攻击的检测率,缩短分类器的训练时间,能较好地满足大规模网络环境下原始流量数据实时检测,对不均衡流量数据识别也具有较好的表现。  相似文献   

9.
针对计算机网络故障诊断知识库冗余性高、神经网络与PCA、DS证据等理论相结合诊断精度不高的难题, 提出了一种新的基于粗糙集和BP神经网络的计算机网络故障诊断模型. 首先利用粗糙集算法对网络故障特征进行约简处理、提取最小诊断规则; 其次利用最小规则训练BP神经网络, 建立基于粗糙集和BP神经网络的计算机网络故障诊断模型; 最后将模型运用于真实网络故障数据诊断. 结果表明: 该模型具有学习效率高、诊断速度快、准确率高的特点, 能够快速诊断网络故障类型.  相似文献   

10.
针对传统分类器在不平衡数据集上性能降低的问题,提出一种基于FCM的簇内欠采样算法(Fuzzy C-means clustering Based Under Sampling In Clusters, FCMUSIC)。使用模糊c-均值聚类算法(Fuzzy C-Means clustering, FCM)将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio, IR)的倒数作为采样倍率,得到新的多数类样本并与少数类样本合并,形成新的平衡样本集,结合KNN和Random Forest分类器进行分类。分析在5组不平衡数据集上的分类结果,当使用KNN分类器时,改进后的算法的F1值平均提高了6.65%,G-mean值平均提高了7.75%;使用Random Forest分类器时,F1值平均提高了5.31%,G-mean值平均提高了6.07%。表明FCMUSIC算法能够有效地提升传统分类器对不平衡数据集的分类性能。  相似文献   

11.
基于集群系统的并行图像灰度匹配   总被引:1,自引:0,他引:1  
针对传统数字图像处理中匹配方法虽然精确度高,但计算量大、时间长等特点,将基于MPI(Message Passing Interface)的集群并行处理引入到图像灰度匹配中,对待匹配图像采用数据分割处理,而将传统的图像灰度匹配算法进行并行化改进,结合并行处理对图像灰度匹配进行并行实现.实验结果表明:并行化处理能显著地缩短灰度匹配时间,达到较高的加速比和效率,对进一步研究基于集群系统下的并行图像处理有一定的指导意义.  相似文献   

12.
为了提高文本情感倾向性分类的精度,提出了一种文本情感倾向性分析方法 bfsmPMI-SVM.该方法在文本预处理阶段,滤除了对表述主题情感倾向性不强烈的语句以及无关停用词等;用改进的PMI-IR算法对情感倾向性词语抽取,并自动扩充了正负基准词集;改进了互信息(MI)算法,在MI的计算中增加了词频因子(f)、类别差异因子(b)和符号因子(s).利用改进的MI算法选择文本特征,融合其他一些文本特征,用SVM实现文本情感倾向性分类.实验以食品安全领域爬取文本为例,与PMI-IR-SVM和MI-SVM算法的倾向分析相比,本文方法的正向文本准确率、负向文本准确率、召回率和F1值等都有提高.  相似文献   

13.
景深视频因高清、美观广受大众喜爱。然而,要从海量视频中检出此类视频十分困难。已有较多研究基于景深图像成像原理,开展景深像素分割算法研究,但难以直接应用于实际视频分类场景。本文针对景深视频类型,设计了可预测视频类型的深度网络。根据景深成像原理,各语义物体之间相对相机的景深深度存在一定的逻辑关系。为此提出以图像深度为指导,利用深度预测模块预测图像的景深深度信息,将其合并后输入至分类网络进行训练检测,以降低景深视频误检率,提升网络模型的性能。此外,针对现实需求中该领域有标数据较少,而不同数据集分布会降低性能的问题,设计了迭代式景深视频数据集收集方法,以较低的劳动成本快速收集所需要的视频数据,具有一定的实际应用价值。本文算法在快手线上的景深视频数据集中识别准确率达85.7%。  相似文献   

14.
为解决深度学习在图像水印算法中计算量大且模型冗余的问题,提高图像水印算法在抵抗噪声、旋转和剪裁等攻击时的鲁棒性,提出基于快速神经网络架构搜索(neural architecture search,NAS)的鲁棒图像水印网络算法。通过多项式分布学习快速神经网络架构搜索算法,在预设的搜索空间中搜索最优网络结构,进行图像水印的高效嵌入与鲁棒提取。首先,将子网络中线性连接的全卷积层设置为独立的神经单元结构,并参数化表示结构单元内节点的连接,预先设定结构单元内每个神经元操作的搜索空间;其次,在完成一个批次的数据集训练后,依据神经元操作中的被采样次数和平均损失函数值动态更新概率;最后,重新训练搜索完成的网络。水印网络模型的参数量较原始网络模型缩减了92%以上,大大缩短了模型训练时间。由于搜索得到的网络结构更为紧凑,本文算法具有较高的时间性能和较好的实验效果,在隐藏图像时,对空域信息的依赖比原始网络更少。对改进前后的2个网络进行了大量鲁棒性实验,对比发现,本文算法在CIFAR-10数据集上对抵抗椒盐噪声和旋转、移除像素行(列)等攻击优势显著;在ImageNet数据集上对抵抗椒盐高斯噪声、旋转、中值滤波、高斯滤波、JPEG压缩、裁剪等攻击优势显著,特别是对随机移除行(列)和椒盐噪声有较强的鲁棒性。  相似文献   

15.
为了进一步提高图像拼接篡改检测的准确率,本文通过对图像拼接技术进行分析,提出一种基于纹理描述的图像拼接篡改检测方法.该方法将局部二值模式(LBP)和共生矩阵两种现有技术相结合,在残差图像的基础上利用改进的LBP技术对图像纹理进行描述,然后借助两类共生矩阵获取不同的图像特征,通过对这些特征向量的组合来提高检测精度.提取特征后利用支持向量机(SVM)或集成分类器进行分类预测.实验结果表明,所提出的方法在IEEE IFS-TC图像取证竞赛库和中国科学院彩色图像库分别达到了0.911和0.938的最高检测准确率.  相似文献   

16.
针对室内环境复杂,难以获取足够多的有效标记数据进行定位,提出了一种将密度峰值快速搜索聚类(CFSFDP)和极限学习机(ELM)相结合的半监督室内定位算法(SLACE).SLACE利用CFSFDP聚类数据集,并标记聚类中心缺失的位置信息,扩充初始标记数据;利用ELM训练初始标记数据,根据输出阈值向量和"换位"思想扩充标记数据,提高定位准确率.实验表明:在标记数据个数相同时,该算法运行时间短,较ELM算法、BP算法而言,定位准确率明显提高.  相似文献   

17.
软件缺陷的高效自动分派是保障开源软件质量的重要手段。已有研究多基于机器学习技术,从缺陷报告的文本内容和开发者之间的关系入手,研究软件缺陷的自动分派,而对缺陷报告之间的相关关系和基于深度学习技术的缺陷自动分派关注甚少。针对此问题,本文提出了一种基于图卷积神经网络的开发者推荐方法。该方法利用带权重的余弦相似度构建缺陷报告网络,再在增量学习方法下训练图卷积神经网络模型用于开发者推荐。将近年提出的3种方法设置为实验对照组,在大型开源软件项目Eclipse和Mozilla数据集平台上分别进行实验,结果表明本文提出的方法平均推荐准确率比其他3种方法最高提升了60%和70%左右。  相似文献   

18.
针对歧视性言论的鉴别,提出了一种融合双向门控循环单元(BIGRU,bidirectional gated recurrent unit)和多元卷积神经网络(MCNN,multi-convolution neural network)的BGM-CNN模型。模型先采用BIGRU结构进行时序特征提取,再经过一维多元卷积神经网络进行降维池化,最后结合多组特征输出进行分类。实验结果表明,BGM-CNN模型比现有的单一模型和CNN-LSTM(long short-term memory)等模型分类效果更好,该模型在五分类验证数据集上分类的F1值为0. 673 3,在两个歧视性言论二分类数据集上的F1值分别为0. 837 3和0. 815 6。  相似文献   

19.
基于粗糙集相容关系给出了一个模式分类算法。先通过感知器神经网络训练属性相容权值和相容阈值,再由相容关系确定每个样本的上下近似,通过引入一个用于决策的粗糙隶属函数,给出了分类算法。最后,对IR IS数据集的实验结果表明本算法是有效的。  相似文献   

20.
分类器集成作为机器学习算法设计的一种重要策略,具有高泛化性能的优点,已广泛应用于遥感、生物信息、图像处理等领域,逐渐成为研究热点.以三种常用的集成方法bagging、boosting和stacking为线索,分别从算法思想、算法评价、算法改进与变种、算法应用等角度进行探讨,为构建高准确率分类器集成系统建立指导.最后,对分类器集成算法的未来发展方向进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号