首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
基于灰度直方图和谱聚类的文本图像二值化方法   总被引:7,自引:0,他引:7  
在自动文本提取中,经定位获得的字符区域需二值化后方能有效识别,由于背景的复杂,常用的阈值化方法不能有效分割自然环境下的字符图像。该文提出了一种基于谱聚类的图像二值化方法,该方法利用规范化切痕(Normalized cut, Ncut)作为谱聚类测度,结合灰度直方图计算相似性矩阵,并通过实验确定最佳的直方图等级数,与通常基于像素级相似矩阵相比,算法的空间复杂度和计算复杂性都大为降低。实验结果表明,针对自然场景下的字符图像,该文方法的二值化结果优于常用的阈值分割结果。  相似文献   

3.
文本聚类是数据挖掘的核心技术,能帮助用户有效地导航、总结和组织文本信息。本文通过对文本聚类的应用研究,探讨了几种聚类算法的原理与特点,提出并分析了K-means算法与层次凝聚算法的具体实现步骤。  相似文献   

4.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

5.
6.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

7.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

8.
提出一种将聚类和小波变换相结合的彩色图像分割方法。首先将图像划分成16×16子块,然后在块中按照视觉一致性准则进行颜色聚类,对于聚类后的子块,提取其颜色特征。利用小波变换得到每个分块的纹理特征,将颜色特征和纹理特征的组合作为对图像进行分割的依据。该方法将聚类算法和小波算法结合,并符合人类视觉特征的分割策略。利用提出的算法对多幅自然图像进行分割实验,实验结果证明该算法的有效性。  相似文献   

9.
互联网热点发现和舆论监控对政府公信力的提升有着重大的意义,而文本聚类技术在这些领域又有着非常广泛的应用。在当前互联网环境下,数据量之大令人匪夷所思,面对如此海量的数据,设计高效且具有良好可伸缩性的分布式处理系统就显得尤为重要。提出了把Map-Reduce这一分布式计算方法应用到文本聚类系统去,并通过相关实验证明了该方法的有效性,为构建具有高性能和高可扩展性的文本聚类系统提供了一种思路。  相似文献   

10.
惠鹏飞 《电视技术》2013,37(13):32-34
针对光学检测印刷电路板(PCB)时需要进行图像分割的问题,提出一种结合K-均值聚类算法的分水岭算法,用于PCB彩色图像分割,即首先将PCB彩色图像聚类,分成不同的颜色区域,按照不同区域进行分水岭分割,最后,将分割线透明的加在原始图像上,完成分割。实验表明,本文提出的算法可以分割PCB彩色图像,并且分割效果好。  相似文献   

11.
图像中的文本包含了重要的语义信息。提出了一种基于连通区域分析的彩色图像文本自动定位算法。首先对彩色图像进行多通道分解,得到少量代表颜色下的二值图像。对二值图像进行连通区域标记,并计算连通区域的属性参数。然后根据关于连通区域属性的先验知识限制,去掉连通区域中的非文本区域,其他的作为候选文本区域。最后根据文本行的排列规律从候选文本区域中提取文本行。实验结果表明该方法能较快地定位文本区域,定位精度较高。  相似文献   

12.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。  相似文献   

13.
文本特征提取的正确高效直接影响聚类结果准确率,针对文本特征提取中文本数据的高维、高噪声问题,提出采用独立分量分析作为文本特征词的提取技术.采用TF-IDF方法形成文本特征的数字描述矩阵一向量空间模型,使用独立分量分析算法实现对矩阵的关键特征词提取,使用非负矩阵分解及其扩展算法对矩阵进行聚类分析,实现聚类.  相似文献   

14.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性.  相似文献   

15.
针对复杂背景下彩色图像中的人脸检测,研究一种基于非线性分段色彩变换、肤色模型和FCM动态聚类算法的检测方法.算法首先进行颜色空间映射及非线性分段色彩变换,再利用肤色分布模型,对肤色似然度图像进行自适应的肤色分割,进一步采用线段编码从分割后的图像中提取区域特征向量,最后利用FCM动态聚类方法,从复杂背景中检测出人脸区域.实验证明,该方法具有较高的准确性和适应性.  相似文献   

16.
付平李孟  尹洪涛 《电子学报》2006,34(B12):2387-2390
本文提出一种在数字文档图像中自动检测和提取文字的算法.首先对图像在不同方向和阶数上进行Gabor滤波,得到反映文档图像布局的滤波图像,然后在得到的滤波图像中直接提取候选文字区域,再利用几何特性和高频分量特性筛选准则从中剔除非文字区域.最后选取了不同类型、不同语言和不同字体的文档图像进行实验,实验结果表明本算法对各种文档图像均能给出满意的结果.  相似文献   

17.
基于粗集与遗传算法相结合的文本模糊聚类方法   总被引:1,自引:0,他引:1  
该文将粗集与遗传算法相结合的方法成功应用于文本模糊聚类.在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性,避免了在类似算法中确定权重时的主观性和不可靠性.最后的实例说明了算法的可行性.  相似文献   

18.
基于相似度的词聚类算法   总被引:1,自引:1,他引:0  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.  相似文献   

19.
基于克隆聚类的特征提取与多传感器故障诊断   总被引:1,自引:0,他引:1  
基于人工免疫理论中的克隆选择算法,结合聚类分析方法,提出了基于克隆选择聚类分析的故障特征提取方法。该方法通过删除对分类无关的特征以及压缩类间相关特征,得到最有利于分类的子特征集,提高了分类器的分类性能。并且该算法具有本质上的并行性、计算效率高和聚类能力强等优点。多传感器故障诊断的实验表明,经过克隆选择聚类分析提取的特征对发动机的故障具有更好的识别能力,为发动机的状态监测与故障诊断提供了依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号