期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李华云《科技情报开发与经济》2008,18(27):86-88

针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。相似文献

2.

李毅王浩杨静《合肥工业大学学报(自然科学版)》2009,32(12)

文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题. 相似文献

3.

基于潜在语义的多类文本分类模型研究 总被引：15，自引：0，他引：15

叶浩王明文曾雪强《清华大学学报(自然科学版)》2005,45(9):1818-1822

在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定. 相似文献

4.

基于预聚类的潜在语义分析模型文献检索研究

和晓萍李迪王米利马学松周卫红《云南民族大学学报(自然科学版)》2015,(3):257-260

提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率. 相似文献

5.

基于词间语义相关度的搜索结果聚类算法 总被引：1，自引：1，他引：0

沙芸张国英《郑州大学学报(理学版)》2009,41(1)

将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高. 相似文献

6.

基于冰冻结构的XML文档聚类研究

李巍孙涛叶苑苑李雄飞李楠《吉林大学学报(信息科学版)》2009,27(6):611-618

为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。相似文献

7.

一种基于名词短语的检索结果多层聚类方法 总被引：2，自引：0，他引：2

庞观松张黎莎蒋盛益邝丽敏吴美玲《山东大学学报(理学版)》2010,45(7):39-44

为了对检索结果获取高质量的聚类效果,提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与NEC,STC和Lingo算法的对比实验表明:该方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。相似文献

8.

基于K中心点的文档聚类算法

吴景岚朱文兴《兰州大学学报(自然科学版)》2005,41(5):88-91

K中心点算法是一个常用的聚类算法,它的主要缺陷是容易陷入局部极值,计算代价太高.本文先构造一个运用余弦相似度的K中心点文档聚类算法,然后提出一个改进算法,该算法不增加计算的复杂性,显著改进文档的聚类结果.最后,将该改进算法作为局部搜索过程嵌入到迭代局部搜索结构中,构造一个基于K中心点的迭代局部搜索文档聚类算法,进一步改进了文档聚类结果.试验结果表明该算法显著改进了文档聚类结果. 相似文献

9.

一种基于相似性的文档聚类算法 总被引：2，自引：0，他引：2

杨靖涛王学林胡于进《华中科技大学学报(自然科学版)》2002,30(12):59-61

针对常见信息检索技术的缺陷，提出一种基于相似性的文档聚类分析算法，将文档集合转化为向量集合，基于向量之间的余弦相似度，采取凝聚的层次聚类算法来获得聚类，给出了算法的详细描述的一个测试实例。相似文献

10.

基于互信息的Web文档聚类方法 总被引：2，自引：2，他引：0

索红光杨涛《广西师范大学学报(自然科学版)》2007,25(2):131-134

由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。相似文献

11.

基于LSA降维的KNN文本分类算法 总被引：1，自引：0，他引：1

李良俊张斌杨明《东北师大学报(自然科学版)》2007,39(2):33-36

针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能. 相似文献

12.

Research of Web documents clustering based on dynamic concept

WANGYun-hua CHENShi-hong 《武汉大学学报:自然科学英文版》2004,9(5):547-552

Conceptual clustering is mainly used for solving the deficiency and incompleteness of domain knowledge. Based on conceptual clustering technology and aiming at theinstitutional framework and characteristic of Web theme informauon, this paper proposes and implements dynamic conceptual clustering algorithm and merging algorithm for Web documents, and also analyses the super performance of the clustering algorithm in efficiency and clustering accuracy. 相似文献

13.

基于聚类非参数检验的动态停车需求分布特征 总被引：1，自引：0，他引：1

冉江宇过秀成陈永茂羊钊张晔唐亮《东南大学学报(自然科学版)》2011,41(4):871-876

为了探索动态停车需求的分布特征,提出聚类非参数检验分析方法.该方法按照个体-组-类的顺序对多时段随机变量进行聚合,在各聚合阶段运用相应的非参数检验方法校核结果,在确保拟合精度的同时,采用相应的模型描述动态随机变量的分布特征.结合该方法的运用,从问题确定、数据调查、数据处理与分析以及分布特征的归纳总结等环节详细阐述了动态... 相似文献

14.

基于混合颜色空间的FCM算法

梁海波王宇华李伟光《佛山科学技术学院学报(自然科学版)》2010,28(1):37-40

提出一种基于混合颜色空间的改进的FCM算法。这种算法减少了FCM的迭代次数,可以使模糊聚类的速度得到很大程度的提高,从而实现墙地砖彩色图像的快速分割。相似文献

15.

网页文献的快速模糊聚类 总被引：2，自引：0，他引：2

王剑辉姜龙滨杨姝《长安大学学报(自然科学版)》2007,27(2):107-110

基于对文献聚类的3种方法(c-means法、模糊c-means法和学习向量量化法)的统计和分析,借鉴了模糊聚类思想,尤其是用协方差矩阵来描述聚类的形状和大小,并将其应用于学习向量量化算法中。针对新的参考向量开发了模糊竞争学习模式,并用该算法成功地解决了文献聚类的难题。实验结果表明:学习向量量化算法能有效地解决文献的聚类问题,运行时间短;该算法与模糊聚类算法相比更健壮;该算法使在线文献聚类分析成为可能。相似文献

16.

三维空间下基于簇首优化机制的LEACH路由算法

《南京理工大学学报(自然科学版)》2015,(2)

相似文献

17.

融合空间及通道注意网络的古籍汉字图像检索

田学东杨琼杨芳《河北大学学报(自然科学版)》2021,41(5):623

古籍汉字图像检索是古籍汉字研究的有效工具.然而,古籍汉字字形复杂、书写风格多变的特点导致传统文字图像检索技术在应用于古籍汉字图像时效果欠佳.针对现有方法在古籍汉字图像特征提取时存在的字形结构细节信息和低层视觉特征提取问题,设计了一种融合空间注意力和通道注意力网络高低层特征的古籍汉字图像检索模型.首先,融合空间注意力的低维特征和通道注意力的高维特征,捕捉古籍汉字空间结构间的依赖关系,提取更丰富的古籍汉字语义特征信息;其次,构建inception残差结构模块,丰富古籍汉字图像特征的感受野,使网络模型更易优化,保留足够的古籍汉字细节信息;最后,运用加权交叉熵损失函数,解决数据集中存在的正负样本不平衡问题,增强检索模型的鲁棒性.在上下、左右、包围和独体结构古籍汉字图像数据集上检索实验的MAP(mean average precision)值分别为77.89%、79.89%、78.21%、80.75%,表明了方法的有效性. 相似文献

18.

基于XML的文档的动态产生

李昕李丽萍常革新《辽宁工程技术大学学报(自然科学版)》2006,25(1):104-106

为了实现以一种开放、自身描述方式定义的数据结构，采用了将SGML的多功能与HTML的易用性结合的方法应用到Web中，构造了XML是SGML的一个简化子集，并介绍了XML具有可以统一电子数据交换的格式、优越的数据描述、可以作为子元素形成数据嵌套等特点及不足之处、主要相关技术（包括显示、打印、数据结构的变更等）．通过实践证明在电子数据交换中有广泛的应用价值。相似文献

19.

基于LDA的文本分类算法

何锦群刘朋杰《天津理工大学学报》2014,(4):28-31

LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高. 相似文献

20.

XML文档频繁序列的挖掘

刘艳民杨新存《青海大学学报》2007,25(6):17-19

XML文档本身和用户频繁查询的数据日益增大,如何根据用户的需求对这些海量数据进行查询处理是当今研究的热点之一。本文基于蚁群算法的思想,分两步挖掘XML文档的频繁序列及用户查询的相关性,从而提高了查询处理的效率。相似文献