首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。  相似文献   

2.
探讨了一种基于Java和XML技术的分布式存储结构,该结构主要用于解决异构的数据存储和数据交互问题,构造了一种Internet环境下的分布式数据存储模式。在对分布式存储结构进行概述的基础上提出了具体的结构模型,并且论述了实现该结构所需的技术和手段。  相似文献   

3.
当处理的半结构数据时,从中挖掘出其隐含的结构显得愈来愈重要了,不仅对于用户而且对于整个系统来说,其重要性也是不言而喻的.算法structure_discovery将聚类算法应用到半结构化数据的结构发现上,将描述同一类对象的共有结构按照相似度聚集到一起形成类,然后从类中发现满足用户兴趣度的结构.与同类算法比较,structure_discovery为增量式算法,同时,聚类技术的使用提高了结构发现效率.  相似文献   

4.
XML文件可以利用树状结构来表示,于是把如何将XML文件做聚类看成如何对树状结构的数据作聚类.使用SOM聚类工具搭配上Jaccard 的距离测量公式来对XML 文件做聚类,然后在每个cluster 中利用GST(Graph Search Technique)算法从这些XML文件当中找出他们的最大序列,最后将这些最大序列融合起来成为共同的结构.  相似文献   

5.
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率.  相似文献   

6.
阐述了XML的概念及其发展由来,分析了使用XML作为数据存储以及结合数据库使用XML的情况,探讨了XML数据的有效存储结构,指出XML作为网上文档和数据交换的格式,由于查询语言的出现,不仅用来交换,也同样用来作为存储和查询的格式,是一种有效的存储系统。  相似文献   

7.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

8.
探讨了一种基于Java和XML技术的分布式存储结构,该结构主要用于解决异构的数据存储和数据交互问题,构造了一种Internet环境下的分布式数据存储模式.在对分布式存储结构进行概述的基础上提出了具体的结构模型,并且论述了实现该结构所需的技术和手段.  相似文献   

9.
10.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感.  相似文献   

11.
关于XML数据的存储研究   总被引:1,自引:0,他引:1  
在XML数据库中对XML数据进行了一系列实验,应用Oracle提供的OracleXMLDB对实验数据进行了存储、索引和查询,并比较了不同存储方式的存储及查询效率。  相似文献   

12.
XML数据聚簇技术研究   总被引:1,自引:1,他引:0  
在分析DOM标准中数据访问的特点后,提出了两种XML数据聚簇存储方法:基于父子关系的XML数据聚簇存储方法和基于兄弟关系的XML数据聚簇存储方法·针对两种典型树遍历操作,分析了两种XML聚簇存储方法发生I/O的概率,给出了两种DOM树遍历路径表达式查询算法,即深度优先查询算法和宽度优先查询算法·基于XMark和XMach测试基准进行了性能评价·  相似文献   

13.
各大研究机构之间生物信息数据是异地、异构和高度自治的,并且信息之间的存放是分散无序的.这给生物信息数据的交换和利用带来了很多困难.因此生物信息检索挖掘更着重于过程中相关信息有序的提取和集成,本文提出了一种新的基于xml表达的有序的层次分形数据模型,更有利于生物信息数据的集成和融合.  相似文献   

14.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

15.
XML数据存储管理技术   总被引:4,自引:0,他引:4  
随着XML的出现,计算机领域出现了一个新的发展方向。XML不仅作为一种互联网上数据表示和交换的标准,而且被应用于搜索引擎、电子商务、电子数据交换等很多方面,因此受到了广泛的关注。为了更好的发挥XML的潜能和作用,必须有一种完善的技术对XML数据进行存储管理。本文详细分析了当前存在的XML数据存储管理技术及其分类方法,指出了这些方法存在的不足。然后,提出了基于映射对象的XML存储管理技术分类方法。最后,对一个完善的XML数据管理技术应当具有的功能进行了探讨。  相似文献   

16.
基于XML的数据转换中间件的研究   总被引:1,自引:0,他引:1  
指出了基于XML的数据转换中间件模型能够较容易地实现对各数据源的描述以及数据源之间的数据转换,详细地阐述了XML在数据交换的原理,分析了它在应用程序和数据库之间所起的接口作用.结合实际工作提出了XDBWare中间件模型,以实现基于XML的数据转换.结果表明:这个模型在处理数据转换时具有相对独立性,可将SQL命令作为XML文档的标签,并将建立数据库连接和生成SQL命令整合在中间件中.  相似文献   

17.
对当前XML数据存储技术研究与应用现状进行了简要介绍,重点就面向值的映像方法在XML数据存储中的应用进行了详细探讨,并给出了相应的存储系统体系结构和实现方法。  相似文献   

18.
随着电子商务的发展和分布式数据库的广泛应用,异构环境间的信息交换变得日益重要。分析了XML在解决异构数据库集成问题中的优势,针对如何实现XML和关系数据库间的相互转换问题,提出了一种安全、有效的解决方案。该方案通过解析Schema文件,依据一定的模式映射策略,实现了数据库交换的跨平台操作。  相似文献   

19.
基于混合映射的XML数据的关系存储和查询   总被引:3,自引:0,他引:3  
XML数据关系存储有很多优点,但必须将XML的树型结构映射为关系表的二维表结构,以基于结构的映射方法为基础,根据XML数据和查询的特点,结合纯XML查询的优点,提出使用混合映射来解决XML数据的存储问题,即文本和枚举仍保留为XML文档,其他部分映射为关系数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号