首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发.  相似文献   

2.
周立君  刘宇  白璐  茹志兵  于帅 《应用光学》2020,41(1):120-126
研究了基于生成式对抗网络(GAN)和跨域自适应迁移学习的样本生成和自动标注方法。该方法利用自适应迁移学习网络,基于已有的少量可见光图像样本集,挖掘目标在红外和可见光图像中特征内在相关性,构建自适应的转换迁移学习网络模型,生成标注好的目标图像。提出的方法解决了红外图像样本数量少且标注费时的问题,为后续多频段协同目标检测和识别获得了足够的样本数据。实验结果表明:自动标注算法对实际采集的装甲目标图像和生成的装甲目标图像各1 000张进行自动标注测试,对实际装甲目标图像的标注准确率达到95%以上,对生成的装甲目标标注准确率达到83%以上;利用真实图像和生成图像的混合数据集训练的分类器的性能和使用纯真实图像时基本一致。  相似文献   

3.
提出一种基于无监督域适应的低空海面红外目标检测方法。首先利用图像翻译网络将源域图像翻译为目标域图像并共享标签。其次在YOLOv5s目标检测网络中使用梯度反转层优化网络提取特征的域间适应性。此外利用最大均值差异损失进一步缩小从网络中提取的不同红外探测器图像的特征分布。最后采用AdamW异步更新优化算法进一步提高模型在训练过程中的稳定性与检测精度。将所提方法在不同红外探测器采集的低空海面红外船只与无人机数据集中进行实验。实验结果表明,相较于传统有监督学习方法,所提方法有效降低了人工标注成本,且源域检测精度提高6.56个百分点,目标域检测精度提高2.62个百分点,有效提升目标检测模型在不同红外探测器间的泛化能力。  相似文献   

4.
面向心音分割的个性化高斯混合建模方法   总被引:2,自引:0,他引:2       下载免费PDF全文
准确的心音分割是分析和处理心音信号的基本前提。主流的心音分割算法采用监督式预先训练的方法构建统计模型,它不仅依赖于繁琐的手工标注,还存在模型与被分割数据之间的不匹配问题。提出了一种面向心音分割的个性化高斯混合建模方法,避免了手工标注和预先训练,而且在线训练获得的个性化模型能够高度匹配被分割的心音数据。由于心音信号的周期在一段短时间内很稳定,因此假设在包含若干心动周期的分析窗内,心音信号具有稳定的周期性,通过主成分分析提取本征心动周期信号,通过无监督学习构建个性化的统计模型,根据模型实现窗内每一心动周期的分割。实验表明,算法的平均分割准确率比主流的LRHSMM算法高3%。  相似文献   

5.
针对行李安检时X射线图像中的危险品检测问题,提出一种基于尺度不变特征变换(SIFT)和隐式形状模型(ISM)的检测方法。首先,采集不同姿态的危险品X射线图像,并标注目标位置,构建训练数据集。然后,通过SIFT算法提取目标关键点,并以此构建目标的ISM模型。在检测过程中,将提取的目标SIFT描述符与ISM模型中的视觉描述符进行匹配,通过投票机制来判断目标是否为危险品。通过手枪和酒瓶的检测实验表明,该方法能够从X射线图像中准确检测出危险品,且对目标姿态变化具有鲁棒性。  相似文献   

6.
为了稳定而精确地跟踪扩展目标,提取相邻两帧图像中扩展日标的所有直线边缘征,计算两帧中所有直线的相对斜率、相对倾角和相对截距进行匹配来确定跟踪化置.通过计算相邻帧之间交点描述子的欧氏距离找到最佳匹配,计算出所有交点的重点作为跟踪位置来实现扩展目标跟踪.实验中该方法在扩展目标的跟踪中有非常好的表现.其结果表明在不发生太大变形的情况下.都可以比普通的模板匹配跟踪有更好的稳定性和更精确的跟踪位置.  相似文献   

7.
刘坤  王典  荣梦学 《光学学报》2019,39(8):109-117
利用半监督学习体系结构中的生成对抗性网络,围绕标注数据稀缺性的问题进行研究,在传统无监督生成对抗网络的基础上用softmax替代最后的输出层,使其扩展为半监督生成对抗网络。对生成样本定义额外的类别标签,用于引导训练,采用半监督训练方式对网络参数进行优化,并将训练得到的判别网络运用于X光图像分类中。对于胸部X光图像,结合自动化分类诊断选取了6种肺部疾病的X光前视图进行实验,结果表明:所提算法提高了利用标注数据的监督学习性能,与其他半监督分类方法相比具有优越的性能。  相似文献   

8.
针对遥感有向目标存在的检测问题,设计了一个基于改进Rotated RPN的网络,设计特征重组机制,通过加权使网络关注有效目标区域。使用新的有向框标注方法,避免在临界角度出现错位等问题。在检测头前端使用极化注意力模块,改善因为分类和回归任务所需特征不一致导致的性能下降问题。实验结果表明,该模型可以提高多类目标的检测精度。相较于基准Rotated RPN,该模型在Dior-R数据集上精度提升4.95%,在HRSC2016数据集上精度提升11.75%。  相似文献   

9.
基于改进Faster R-CNN的空中目标检测   总被引:1,自引:0,他引:1  
相比传统图像目标检测算法,基于大数据和深度学习的检测算法无须人工设计特征,且检测性能更稳健。在防空应用背景下,自建了空中目标静态和视频图像数据集用于训练和测试,改进了基于深度学习的目标检测框架Faster R-CNN,将其专用于空中目标检测。结合空中目标检测任务的特点和需求,提出膨胀积累、区域放大、局部标注、自适应阈值、时空上下文等改进策略,弥补了Faster R-CNN对弱小目标和被遮挡目标不敏感的缺陷,提高了检测速度和精度。实验表明,改进后的Faster R-CNN在应对弱小目标、多目标、杂乱背景、光照变化、模糊、大面积遮挡等检测难度较大的情况时,均能获得很好的效果。数据集上测试结果的平局准确率均值较改进之前提高了16.7%,检测速度提高了3倍。  相似文献   

10.
向量空间模型最初用于文献检索,该模型是通过对文献内容进行特征文本提取后,将文献转换到文本向量空间,然后在文本向量空间中通过计算文献的特征文本向量与检索文本的特征文本向量的相似度,实现文献的检索,该方法基于模式识别中模板匹配的最近邻原则。针对光谱数据的特点和模式识别中模板匹配的基本原则,将向量空间模型引入基于样品光谱的分类识别。通过训练集中光谱数据获得各样品的光谱数据模板,提取训练集中各样品光谱数据模板特征峰的波长和相对强度信息,构建特征峰信息数据库,计算获得特征峰信息权值,将光谱数据转换到特征峰向量空间,获得各样品光谱数据模板的特征峰向量,构建样品特征峰向量数据库。同理获得预测集样品光谱的特征峰向量,在特征峰向量空间中通过计算预测集样品特征峰向量与样品特征峰向量数据库中各样品模板特征峰向量的余弦值,完成对预测集样品的分类识别。以岩屑样品的LIBS光谱为研究对象,将向量空间模型应用于LIBS光谱的分类识别。分类结果表明,该方法能够实现对岩屑样品LIBS全谱的快速分类识别,且在对预测集光谱数据进行平均处理后,分类准确率为100%。提出的基于向量空间模型的LIBS光谱分类方法可以拓展应用于其他光谱数据的分类识别。  相似文献   

11.
Natural spoken language processing includes not only speech recognition but also identification of the speaker's gender, age, emotional, and social status. Our purpose in this study is to evaluate whether temporal cues are sufficient to support both speech and speaker recognition. Ten cochlear-implant and six normal-hearing subjects were presented with vowel tokens spoken by three men, three women, two boys, and two girls. In one condition, the subject was asked to recognize the vowel. In the other condition, the subject was asked to identify the speaker. Extensive training was provided for the speaker recognition task. Normal-hearing subjects achieved nearly perfect performance in both tasks. Cochlear-implant subjects achieved good performance in vowel recognition but poor performance in speaker recognition. The level of the cochlear implant performance was functionally equivalent to normal performance with eight spectral bands for vowel recognition but only to one band for speaker recognition. These results show a disassociation between speech and speaker recognition with primarily temporal cues, highlighting the limitation of current speech processing strategies in cochlear implants. Several methods, including explicit encoding of fundamental frequency and frequency modulation, are proposed to improve speaker recognition for current cochlear implant users.  相似文献   

12.
深度非线性度量学习在说话人确认中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
将非线性度量学习(Nonlinear Metric Learning,NML)应用于说话人确认,提出了一种基于深度独立子空间分析(Independent Subspace Analysis,ISA)网络的说话人确认方法。区别于传统的线性度量学习方法,该方法使用深度独立子空间分析网络来学习一种从说话人原始空间到优化子空间的非线性显式映射,并在此基础上计算两条语音之间的相似性,以获得更好的说话人确认性能.所提方法在NIST SRE 2008数据集上进行了评估。评估结果表明,所提算法的等错误率指标相比传统的基于余弦距离打分的i-vector算法、线性判别分析(Linear Discriminant Analysis,LDA)算法、概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)算法分别下降了11.02%,6.40%和4.579%。   相似文献   

13.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。   相似文献   

14.
In this study, the problem of sparse enrollment data for in-set versus out-of-set speaker recognition is addressed. The challenge here is that both the training speaker data (5 s) and test material (2~6 s) is of limited test duration. The limited enrollment data result in a sparse acoustic model space for the desired speaker model. The focus of this study is on filling these acoustic holes by harvesting neighbor speaker information to leverage overall system performance. Acoustically similar speakers are selected from a separate available corpus via three different methods for speaker similarity measurement. The selected data from these similar acoustic speakers are exploited to fill the lack of phone coverage caused by the original sparse enrollment data. The proposed speaker modeling process mimics the naturally distributed acoustic space for conversational speech. The Gaussian mixture model (GMM) tagging process allows simulated natural conversation speech to be included for in-set speaker modeling, which maintains the original system requirement of text independent speaker recognition. A human listener evaluation is also performed to compare machine versus human speaker recognition performance, with machine performance of 95% compared to 72.2% accuracy for human in-set/out-of-set performance. Results show that for extreme sparse train/reference audio streams, human speaker recognition is not nearly as reliable as machine based speaker recognition. The proposed acoustic hole filling solution (MRNC) produces an averaging 7.42% relative improvement over a GMM-Cohort UBM baseline and a 19% relative improvement over the Eigenvoice baseline using the FISHER corpus.  相似文献   

15.
In order to further improve the performance of speaker recognition, features fusion and models fusion are proposed. The features fusion method is to fuse deep and shallow features. The fused feature describes speaker characteristics more comprehensively than a single feature because of the complementarity between different levels of features. The models fusion method is to fuse i-vectors extracted from different speaker recognition systems. The fused model can combine advantages of different speaker recognition systems. Experimental results show the effectiveness of the proposed methods. Compared with the state-of-the-art system on CASIA North and South dialect corpus,the proposed features fusion system and models fusion system achieved about 54.8% and 69.5% relative improvement on the equal error rate(EER),respectively.  相似文献   

16.
深浅层特征及模型融合的说话人识别   总被引:4,自引:0,他引:4       下载免费PDF全文
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。   相似文献   

17.
矢量泰勒级数特征补偿的说话人识别   总被引:2,自引:0,他引:2       下载免费PDF全文
将矢量泰勒级数(Vector Taylor Series,VTS)特征补偿算法应用于说话人识别,给出了卷积噪声方差的近似闭式解,构建了联合快速估计卷积噪声和加性噪声均值和方差的框架。该算法可在无需失配环境先验信息的前提下,直接从失配语音中估计出卷积噪声和加性噪声的均值和方差,实现对环境失配的补偿。实验结果表明,在信道变化较大的无线信道下,卷积噪声方差的补偿最高可降低误识率3.24%.提升了系统的识别性能。在存在加性噪声的无线信道下,与基于线性失真模型的特征映射算法和倒谱均值减算法相比,本文算法可分别最大降低49.65%和68.06%的误识率,适合于信道变化较大的失配环境补偿。   相似文献   

18.
长时语音特征在说话人识别技术上的应用   总被引:1,自引:0,他引:1  
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。   相似文献   

19.
水声目标识别一直是水声领域研究的重点问题之一,深度学习方法可以有效地解决目标识别问题,然而,水声样本的稀少限制了该方法的应用。该文 提出一种基于数据增强的水声信号深度学习目标识别方法,该方法以Mel功率谱作为网络的输入特征,通过对原始信号在时域和时频域的拉伸和掩蔽等变换,实现数据扩展和增加泛化性能的目的,最后,利用改进的VGG网络模型实现目标分类。实验结果表明,该文方法得到的水下目标识别准确率(95.2%) 要优于其他4种对比方法,证明了该文提出的网络模型和数据增强方法均有助于提高目标分类性能。  相似文献   

20.
蒿晓阳  张鹏远 《声学学报》2022,47(3):405-416
常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号