共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
基于灰度直方图和谱聚类的文本图像二值化方法 总被引:7,自引:0,他引:7
在自动文本提取中,经定位获得的字符区域需二值化后方能有效识别,由于背景的复杂,常用的阈值化方法不能有效分割自然环境下的字符图像。该文提出了一种基于谱聚类的图像二值化方法,该方法利用规范化切痕(Normalized cut, Ncut)作为谱聚类测度,结合灰度直方图计算相似性矩阵,并通过实验确定最佳的直方图等级数,与通常基于像素级相似矩阵相比,算法的空间复杂度和计算复杂性都大为降低。实验结果表明,针对自然场景下的字符图像,该文方法的二值化结果优于常用的阈值分割结果。 相似文献
3.
4.
5.
6.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。 相似文献
7.
基于蚁群算法的文本分类和聚类 总被引:1,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献
8.
提出一种将聚类和小波变换相结合的彩色图像分割方法。首先将图像划分成16×16子块,然后在块中按照视觉一致性准则进行颜色聚类,对于聚类后的子块,提取其颜色特征。利用小波变换得到每个分块的纹理特征,将颜色特征和纹理特征的组合作为对图像进行分割的依据。该方法将聚类算法和小波算法结合,并符合人类视觉特征的分割策略。利用提出的算法对多幅自然图像进行分割实验,实验结果证明该算法的有效性。 相似文献
9.
互联网热点发现和舆论监控对政府公信力的提升有着重大的意义,而文本聚类技术在这些领域又有着非常广泛的应用。在当前互联网环境下,数据量之大令人匪夷所思,面对如此海量的数据,设计高效且具有良好可伸缩性的分布式处理系统就显得尤为重要。提出了把Map-Reduce这一分布式计算方法应用到文本聚类系统去,并通过相关实验证明了该方法的有效性,为构建具有高性能和高可扩展性的文本聚类系统提供了一种思路。 相似文献
10.
针对光学检测印刷电路板(PCB)时需要进行图像分割的问题,提出一种结合K-均值聚类算法的分水岭算法,用于PCB彩色图像分割,即首先将PCB彩色图像聚类,分成不同的颜色区域,按照不同区域进行分水岭分割,最后,将分割线透明的加在原始图像上,完成分割。实验表明,本文提出的算法可以分割PCB彩色图像,并且分割效果好。 相似文献
11.
12.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。 相似文献
13.
14.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性. 相似文献
15.
16.
本文提出一种在数字文档图像中自动检测和提取文字的算法.首先对图像在不同方向和阶数上进行Gabor滤波,得到反映文档图像布局的滤波图像,然后在得到的滤波图像中直接提取候选文字区域,再利用几何特性和高频分量特性筛选准则从中剔除非文字区域.最后选取了不同类型、不同语言和不同字体的文档图像进行实验,实验结果表明本算法对各种文档图像均能给出满意的结果. 相似文献
17.
基于粗集与遗传算法相结合的文本模糊聚类方法 总被引:1,自引:0,他引:1
该文将粗集与遗传算法相结合的方法成功应用于文本模糊聚类.在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性,避免了在类似算法中确定权重时的主观性和不可靠性.最后的实例说明了算法的可行性. 相似文献
18.
基于相似度的词聚类算法 总被引:1,自引:1,他引:0
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果. 相似文献