基于混合聚类的k-匿名数据发布算法 |
| |
引用本文: | 方凯,史志才,贾媛媛.基于混合聚类的k-匿名数据发布算法[J].电子科技,2022(12):78-83. |
| |
作者姓名: | 方凯 史志才 贾媛媛 |
| |
作者单位: | 1. 上海工程技术大学电子电气工程学院;2. 上海市信息安全综合管理技术研究重点实验室 |
| |
基金项目: | 国家自然科学基金(61802252)~~; |
| |
摘 要: | 为了减少数据发布时的信息损失,针对基于聚类的数据发布匿名方案数据可用性较低等问题,文中提出了一种基于混合聚类的k-匿名数据发布算法。相对于传统的单一聚类方法,该算法将密度聚类和划分聚类相结合,依据数据集的密度特征选取初始聚类中心点,利用划分聚类进行迭代实现最优聚类。此外,该方法剔除了数据集中的部分离群点噪声,减小了其对聚类结果的影响。针对混合型数据记录,采用k-means和k-modes结合的距离度量方式,引入桶泛化算法,减少了泛化操作造成的信息损失。实验结果表明,相较于现有方法,基于混合聚类的k-匿名数据发布算法能够有效降低数据匿名的信息损失,提高数据发布的质量。
|
关 键 词: | 隐私保护 数据发布 k-匿名 聚类 桶泛化算法 混合属性 网络安全 信息损失 |
|
|