首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于非参数贝叶斯模型的聚类算法
引用本文:张媛媛. 一种基于非参数贝叶斯模型的聚类算法[J]. 宁波大学学报(理工版), 2013, 0(4): 24-28
作者姓名:张媛媛
作者单位:宁波大学 信息科学与工程学院, 浙江 宁波 315211
基金项目:国家自然科学基金,浙江省新一代移动互联网用户端软件科技创新团队项目,宁波市自然科学基金,宁波大学学科项目
摘    要:鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术, 并且与监督学习不同的是聚类分析中没有类别或标签的指导信息, 所以如何选择合适的聚类个数(即模型选择)一直是聚类分析中的难点. 由此提出了一种基于Dirichlet过程混合模型的聚类算法, 并用collapsed Gibbs采样算法对混合模型的参数进行估计. 新算法基于非参数贝叶斯模型的框架, 能够在不断的采样过程中优化模型参数并形成合适的聚类个数. 在人工合成数据集和真实数据集上的聚类实验结果表明: 基于Dirichlet过程混合模型的聚类算法不但能够自动确定聚类个数, 而且具有较强灵活性和鲁棒性.

关 键 词:非参数贝叶斯模型  Dirichlet过程混合模型  聚类分析  Gibbs采样

Data Clustering via Nonparametric Bayesian Models
ZHANG Yuan-yuan. Data Clustering via Nonparametric Bayesian Models[J]. Journal of Ningbo University(Natural Science and Engineering Edition), 2013, 0(4): 24-28
Authors:ZHANG Yuan-yuan
Affiliation:Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China
Abstract:Clustering is one of the most useful techniques in machine learning and data mining. In cluster analysis, model selection concerning how to determine the number of clusters is an important issue. Unlike supervised learning, there are no class labels and criteria to guide the search, so the model for clustering is always difficult to select. To tackle this problem, we present the concept of nonparametric clustering approach based on Dirichlet process mixture model (DPMM), and apply a collapsed Gibbs sampling technique to sample the posterior distribution. The proposed clustering algorithm follows the Bayesian nonparametric framework and can optimize the number of components and the parameters of the model. The experimental result of clustering shows that this Bayes model has promising properties and robust performance.
Keywords:nonparametric Bayesian models  Dirichlet process mixture model  clustering analysis  Gibbs sampling
本文献已被 万方数据 等数据库收录!
点击此处可从《宁波大学学报(理工版)》浏览原始摘要信息
点击此处可从《宁波大学学报(理工版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号