排序方式: 共有128条查询结果,搜索用时 15 毫秒
1.
针对小样本数据样本容量不足与分布不平衡的设备寿命预测问题,构建基于改进SMOTE算法与改进KNN(K-NearestNeighbor)算法联合优化模型。首先,设置噪声比例系数β排除样本数据中的噪声,随后通过类B-SMOTE(Borderline-SMOTE)算法与传统SOMTE算法结合构建改进SMOTE(ISMOTE)算法对存在分布问题的少数类样本进行新增优化,避免因为样本分布不平衡以及样本数量较少引起的偏差。其次,针对分类过程中边界模糊的样本点,通过利用粒子群算法寻求每个样本种类中心点并计算样本距离均值建立分隔阈值■,对阈值范围内的样本点利用“投票法”判断样本种类,规避KNN算法在处理数据时因为不同种类样本混合而出现误差的问题。最后,通过利用美国卡特彼勒公司液压泵状态数据以及凌津滩水电站水导轴承振动数据进行仿真,算例证明上述两种改进算法在面对小样本不平衡设备数据时可以准确分析设备运行状态以及预测设备未来健康发展趋势。 相似文献
2.
用于文本分类的快速KNN算法 总被引:1,自引:0,他引:1
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量. 相似文献
3.
为了解决基于KNN(K-Nearest Neighbors)算法的非参数回归短时交通状态预测模型执行效率低的问题,提出了KNN算法的数据优化策略。通过对交通状态时空特性的研究,采用层次化对象构造交通状态向量,并根据交通状态的自重复性对历史样本数据库进行数据压缩。实验证明,优化策略提高了KNN算法的执行效率,经过压缩后的数据存取时间比压缩前缩短了8.66%。 相似文献
4.
KNN查询是多媒体数据库管理系统中最具代表性的查询方式之一,它将k个与查询点最接近的对象作为查询结果返回。对于树型多维索引结构,KNN查询处理算法主要有RKV算法和HS算法。本文针对这两种不同处理算法进行了性能研究,通过试验确定了算法的不同适用场景,最后就应用中的KNN查询实现给出了相应的建议。 相似文献
5.
B.T. Luke 《SAR and QSAR in environmental research》2013,24(1):41-57
While quantitative structure-activity relationships attempt to predict the numerical value of the activities, it is found that statistically good predictors do not always do a good job of qualitatively determining the activity. This study shows how Fuzzy classifiers can be used to generate Fuzzy structure-activity relationships which can more accurately determine whether or not a compound will be highly inactive, moderately inactive or active, or highly active. Four examples of these classifiers are presented and applied to a well-studied activity dataset. 相似文献
6.
1INTRODUCTION Streptococcus pneumoniae is a key pathogen in many respiratory tract infections.In a Canada-wide surveillance study published in1999,it was reported that21.2%of pneumococcal tested were interme-diately susceptible or resistant to penicillin.As the newer respiratory fluoroquinolones are active aga-inst both penicillin-susceptible and penicillin-resis-tant isolates of S.pneumoniae,they will be increa-singly important in the future treatment of infections caused by this pathoge… 相似文献
7.
文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程.文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题.针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了改进和调整,提出了基于改进的朴素贝叶斯文本分类方法,试验结果表明,该方法取得了更好的效果. 相似文献
8.
基于样本重要性原理的KNN文本分类算法 总被引:1,自引:0,他引:1
KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高. 相似文献
9.
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。 相似文献
10.
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳. 相似文献