排序方式: 共有19条查询结果,搜索用时 15 毫秒
11.
12.
入侵检测是一种重要的网络安全技术.现有的无监督方法虽然能在未经标记的数据上找出异常,但时间复杂度相对较高,不适用于入侵检测中大规模的数据集.针对这一问题,提出了一种新的发现异常的无监督方法,通过使用聚类和K-近邻距离和技术,克服了原有方法的缺点,具有较低的时间复杂度和较高的入侵检测效率. 相似文献
13.
稀有类分类在许多领域有重要应用,针对稀有类在数据中所占比例少,容易被忽略的特点,提出一种基于聚类和Ripper的稀有类分类方法,该方法在一趟聚类的结果中,通过将在整个数据集中所占的比例低于15%的聚类标识为少数类,再应用Ripper分类算法分别对少数类和多数类分别进行分类建模,并按照一定的组合方式调整得出整个数据集的最终规则集.在UCI数据集上的测试结果表明,基于一趟聚类和Ripper的稀有类分类方法对稀有类可产生高质量的分类效果.可以将该方法应用于现实生活的领域中进行稀有数据的分类. 相似文献
14.
基于聚类的垃圾邮件识别技术研究 总被引:1,自引:0,他引:1
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。 相似文献
15.
针对现有客户流失预测模型预测准确率低下的问题,本文结合基于统计学习的客户聚类分析和分类预测技术来构建客户流失预测模型。根据模型计算结果,可以辨别出客户类别及流失倾向,并在此基础上提出了预防客户流失的保持措施,从而为电信企业运营商的客户关系管理提供决策依据。 相似文献
16.
BERT等预训练模型在很多NLP任务上取得了良好的效果,但预训练模型参数规模大,运算量大,对硬件资源要求高,难以部署在小型的配置环境中。模型压缩是解决该问题的关键,知识蒸馏是目前较好的模型压缩方法。基于此,提出基于多任务蒸馏的句意图识别和槽位填充联合模型,该模型将ALBERT运用到任务型对话系统中,并利用知识蒸馏策略将ALBERT模型知识迁移到BiLSTM模型。实验结果表明,基于ALBERT的联合模型在SMP 2019评测数据集中的句准确率为77.74%,单独训练的BiLSTM模型句准确率为58.33%,而蒸馏模型的句准确率为67.22%,在比BiLSTM高8.89%的情况下,推断速度约为ALBERT的18.9倍。 相似文献
17.
基于热传导或物质扩散理论的推荐算法首先利用网络结构得到对象间推荐关系,然后根据对象间关系预测用户喜欢的对象,而忽略了用户偏好。为了弥补这个缺陷,根据用户已选择对象的标签,利用TF-IDF方法构建用户偏好模型,以用户在预测对象标签上的平均偏好作为对该对象的偏好程度,采用加权方法与现有基于网络推荐算法混合运算。经在基准数据集MovieLens上测试表明,通过与目前效果最好的几种基于网络推荐算法进行加权混合运算,推荐结果在推荐精度、个性化、多样化等多种评价指标方面均比原有算法有明显提高。 相似文献
18.
一种基于名词短语的检索结果多层聚类方法 总被引:2,自引:0,他引:2
为了对检索结果获取高质量的聚类效果,提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与NEC,STC和Lingo算法的对比实验表明:该方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。 相似文献
19.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用. 相似文献