首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
深浅层特征及模型融合的说话人识别   总被引:4,自引:0,他引:4       下载免费PDF全文
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。  相似文献   

2.
The quality of feature extraction plays a significant role in the performance of speech emotion recognition. In order to extract discriminative, affect-salient features from speech signals and then improve the performance of speech emotion recognition, in this paper, a multi-stream convolution-recurrent neural network based on attention mechanism (MSCRNN-A) is proposed. Firstly, a multi-stream sub-branches full convolution network (MSFCN) based on AlexNet is presented to limit the loss of emotional information. In MSFCN, sub-branches are added behind each pooling layer to retain the features of different resolutions, different features from which are fused by adding. Secondly, the MSFCN and Bi-LSTM network are combined to form a hybrid network to extract speech emotion features for the purpose of supplying the temporal structure information of emotional features. Finally, a feature fusion model based on a multi-head attention mechanism is developed to achieve the best fusion features. The proposed method uses an attention mechanism to calculate the contribution degree of different network features, and thereafter realizes the adaptive fusion of different network features by weighting different network features. Aiming to restrain the gradient divergence of the network, different network features and fusion features are connected through shortcut connection to obtain fusion features for recognition. The experimental results on three conventional SER corpora, CASIA, EMODB, and SAVEE, show that our proposed method significantly improves the network recognition performance, with a recognition rate superior to most of the existing state-of-the-art methods.  相似文献   

3.
针对声纹识别领域不匹配,且目标领域缺少标注数据的难题,提出在对抗学习基础上融合分布对齐的无监督领域自适应方法,通过训练过程中统计分布的对齐,以减小领域差异,从而提取声音中更有声纹鉴别性的特征,取得了稳定的性能提升。在文本相关的声纹识别任务中,对抗学习和分布对齐的方法能协同发挥作用,等错率相对降低11%;在文本无关的任务中,对抗学习效果不稳定,而分布对齐的方法依然有相对8%的性能提升。实验结果证明该方法在领域不匹配且目标领域缺少标注数据时,能有效提取语音中声纹鉴别信息,稳定提升识别性能。  相似文献   

4.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。  相似文献   

5.
研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。  相似文献   

6.
尺度不变特征与几何特征融合的人耳识别方法   总被引:3,自引:1,他引:2  
田莹  苑玮琦 《光学学报》2008,28(8):1485-1491
要提高人耳的识别率,关键是特征的提取与表达.尺度不变特征变换(SIFT)技术是局部点特征提取算法,在尺度空间寻找极值点,提取对图像的尺度和旋转变化具有不变性,对光照变化和图像变形具有较强的适应性的特征向量.尝试用SIFT技术来提取外耳图像的结构特征点以形成稳定的特征描述子,为了克服一幅图像中有多个局部描述子相似的问题,在SIFT特征描述子中融入一个耳廓几何特征.最后采用特征向量的欧氏距离作为两幅图像相似性度量标准进行人耳识别.在耳图像库七进行实验.结果表明,该方法不仅可以有效地提取人耳特征,通过少量特征可获得较高的识别率,而且对耳图像刚体变化具有较强的稳健性.  相似文献   

7.
A feature extraction technique named perceptual MVDR-based cepstral coefficients (PMCCs) was introduced into speaker recognition.PMCCs are extracted and modeled using Gaussian Mixture Models(GMMs) for speaker recognition.In order to compensate for speaker and channel variability effects,joint factor analysis(JFA) is used.The experiments are carried out on the core conditions of NIST 2008 speaker recognition evaluation data.The experimental results show that the systems based on PMCCs can achieve comparable performance to those based on the conventional MFCCs.Besides,the fusion of the two kinds of systems can make significant performance improvement compared to the MFCCs system alone,reducing equal error rate(EER) by the factor between 7.6%and 30.5%as well as minimum detect cost function (minDCF) by the factor between 3.2%and 21.2%on different test sets.The results indicate that PMCCs can be effectively applied in speaker recognition and they are complementary with MFCCs to some extent.  相似文献   

8.
将多尺度变换和“高频取大、低频加权平均”融合规则相结合是融合双波段图像的有效方法。但用该类方法融合多波段图像时,序贯式加权常常会导致原图像间固有的差异信息在融合图像中被弱化,从而影响后续的目标识别和场景理解。该问题在融合具有纹理特征的多波段图像时更为突出。为此,提出了一个基于嵌入式多尺度分解和可能性理论的多波段纹理图像融合新方法。首先,利用一种多尺度变换方法把多波段原图像分别分解为高频和低频成分,并对多波段图像中标准差最大的一幅原图像的低频成分利用另一种多尺度方法进行分块,再以该分块图像的大小和位置为标准对其余波段的原图像进行分块。然后,基于可能性理论的相关融合规则逐一融合对应的多波段块图像,再把块融合图像进行拼接,以拼接结果作为低频融合图像。最后,将该低频融合图像和利用取大规则融合得到的高频成分一起通过多尺度逆变换获得最终的融合图像。这种方法不仅将像素级和特征级融合方法综合在一起, 而且将空间域和变换域技术综合在一起, 并通过对大小块采用不同融合规则解决了目标边缘的锯齿效应问题。实验表明该方法效果显著。  相似文献   

9.
长时语音特征在说话人识别技术上的应用   总被引:1,自引:0,他引:1  
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。   相似文献   

10.
说话人识别技术是一项重要的生物特征识别技术。近年来,使用深度神经网络提取发声特征的说话人识别算法取得了突出成果。时延神经网络作为其中的典型代表之一已被证明具有出色的特征提取能力。为进一步提升识别准确率并节约计算资源,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率(EER)和0.15的最小检测代价标准(DCF),证明了在说话人识别任务上的有效性。  相似文献   

11.
谢将剑  杨俊  邢照亮  张卓  陈新 《应用声学》2020,39(2):207-215
针对短时窗平均/长时窗平均算法从次声台站监测数据中提取的信号仍然包含噪声的问题,对支持向量机和人工神经网络的机器学习方法进行了研究。采用小波包分解的方法对信号进行重构,提取出各频带内的重构信号能量特征,对事件信号和噪声进行了识别实验,并分析了提高识别能力的方法,为工程应用提供理论参考。实验结果表明,在训练数据集不大的情况下,通过优化模型结构可以将两种方法的识别能力提高到可以接受的水平。  相似文献   

12.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

13.
针对复杂情况下海上舰船目标单波段特征识别能力不足的问题,研究可见光、中波红外和长波红外三波段特征图像融合技术,重点解决图像融合方法中存在的算法耗时和融合策略选择的问题,提出了一种新的基于区域协方差矩阵的多波段特征级融合方法,针对可见光图像和红外图像分别设计11维和5维特征向量,协方差矩阵可以将多个特征进行融合,既保证了不同目标之间的区别性,同时又减小计算量。该方法首先利用显著性检测,快速定位图像中的目标区域,然后,针对不同波段图像设计的特征向量定义协方差阵的距离计算公式并进行匹配,通过对图像的一次遍历操作获得积分图像,在协方差计算时达到快速计算的目的,最后利用k-阶最近邻算法对多种舰船目标进行分类识别。利用实拍的3 400余张三波段舰船目标图像作为测试数据。实验主要分为两部分,首先对比单波段和三波段融合识别的识别率,验证所提出的融合方法具有更广的应用范围;然后,在计算效率上对比多种传统的像素级方法,验证采用的特征级融合在计算时间上的优势。实验结果表明,该方法可达到95.1%的识别率,单帧计算耗时约为0.5 s,在实时性和检测率方面都有明显提高。  相似文献   

14.
紫檀属中的木材有很多属于名贵木材,不同树种之间十分相似。传统的木材识别方法多以木材解剖学为主,通过观察木材的切片结构特征对木材的树种进行判断,这类方法虽有较高的识别精度,但是其识别工艺较为复杂而且技术难度也相对较高。与木材解剖学相对应的是利用图像信息或光谱信息的木材树种识别方法,该类方法虽具有较为简单的识别工艺,但是在对同属相似木材树种进行识别时,往往不能够取得较好的识别效果。提出了一种基于木材切面光谱特征和纹理特征相融合的木材树种识别方法,该方法不仅识别工艺简单、自动化程度高,而且具有较高的识别精度。首先通过数码相机和光谱仪采集木材切面的图像信息和光谱信息,然后分别使用纹理特征提取方法和光谱特征提取方法提取两类特征的特征向量,接下来使用基于典型相关分析的特征级融合方法将这两个特征向量进行融合,最后使用支持向量机对融合后的特征向量进行分类识别。为了验证方法的有效性,以市场中常见的5种紫檀属树种的三个切面为研究对象,对这些木材树种进行了识别。实验结果显示,单独使用纹理特征的识别正确率最高为80.00%,单独使用光谱特征的识别正确率最高为94.40%,使用融合的特征最高的识别正确率可达99...  相似文献   

15.
Image fusion technology can process multiple single image data into more reliable and comprehensive data, which play a key role in accurate target recognition and subsequent image processing. In view of the incomplete image decomposition, redundant extraction of infrared image energy information and incomplete feature extraction of visible images by existing algorithms, a fusion algorithm for infrared and visible image based on three-scale decomposition and ResNet feature transfer is proposed. Compared with the existing image decomposition methods, the three-scale decomposition method is used to finely layer the source image through two decompositions. Then, an optimized WLS method is designed to fuse the energy layer, which fully considers the infrared energy information and visible detail information. In addition, a ResNet-feature transfer method is designed for detail layer fusion, which can extract detailed information such as deeper contour structures. Finally, the structural layers are fused by weighted average strategy. Experimental results show that the proposed algorithm performs well in both visual effects and quantitative evaluation results compared with the five methods.  相似文献   

16.
Recently, the rapid development of the Internet of Things has contributed to the generation of telemedicine. However, online diagnoses by doctors require the analyses of multiple multi-modal medical images, which are inconvenient and inefficient. Multi-modal medical image fusion is proposed to solve this problem. Due to its outstanding feature extraction and representation capabilities, convolutional neural networks (CNNs) have been widely used in medical image fusion. However, most existing CNN-based medical image fusion methods calculate their weight maps by a simple weighted average strategy, which weakens the quality of fused images due to the effect of inessential information. In this paper, we propose a CNN-based CT and MRI image fusion method (MMAN), which adopts a visual saliency-based strategy to preserve more useful information. Firstly, a multi-scale mixed attention block is designed to extract features. This block can gather more helpful information and refine the extracted features both in the channel and spatial levels. Then, a visual saliency-based fusion strategy is used to fuse the feature maps. Finally, the fused image can be obtained via reconstruction blocks. The experimental results of our method preserve more textual details, clearer edge information and higher contrast when compared to other state-of-the-art methods.  相似文献   

17.
In order to improve the recognition accuracy of the unimodal biometric system and to address the problem of the small samples recognition, a multimodal biometric recognition approach based on feature fusion level and curve tensor is proposed in this paper. The curve tensor approach is an extension of the tensor analysis method based on curvelet coefficients space. We use two kinds of biometrics: palmprint recognition and face recognition. All image features are extracted by using the curve tensor algorithm and then the normalized features are combined at the feature fusion level by using several fusion strategies. The k-nearest neighbour (KNN) classifier is used to determine the final biometric classification. The experimental results demonstrate that the proposed approach outperforms the unimodal solution and the proposed nearly Gaussian fusion (NGF) strategy has a better performance than other fusion rules.  相似文献   

18.
Based on analyzing contribution of short-time spectrum in different frequency subbands to speaker recognition and using of polynomial curve matching techniques, a non-linear frequency transform and feature detection algorithm are proposed to highlight the speaker's individuality in short-time spectrum of speech. The experimental results show that the performance of speaker recognition system is improved effectively, the average error rate of recognition relatively falls about 70.5%, 60.8% and 70.5% in comparison with classical frequency transform of Mel, Bark and ERB (Equivalent Rectangular Bandwidth) respectively.  相似文献   

19.
生物特征识别在信息安全领域发挥着重要作用,掌纹识别作为一种新型生物特征识别方式,具有低失真、非侵入性和高唯一性等优势。传统掌纹研究大多使用自然光成像系统以灰度格式获取,识别精度很难进一步提升。为了获得更多的身份鉴别信息,提出利用多光谱掌纹图像代替自然光掌纹图像。针对现有掌纹识别算法由于没有考虑到不同光谱的特性而导致纹理细节丢失,识别精准率低的问题,提出了一种基于多光谱图像融合的掌纹识别算法。该方法通过对不同光谱下的掌纹图像进行快速自适应二维经验模式分解(FABEMD),将多光谱掌纹图像分解成一系列频率由高到低的二维固有模态函数(BIMF)和一个残余分量,残余分量可被视为该光谱图像低频信息的初步估计。图像采集过程中光照条件很难保持稳定,而近红外光谱图像在进行FABEMD分解时对光照变换敏感,容易导致分解后的BIMF背景信息过于冗余;因此对分解后的近红外掌纹图像进行背景重建及特征细化,在对背景冗余信息进行平滑处理的同时可以有效增强高频信息的特征表达。为避免直接融合处理后引发的图像过度曝光问题,提出对近红外特征压缩后再融合。此外,提出了一种结合了注意力机制的改进残差网络(IRCANet),用于融合后的掌纹图像分类,在网络中引入分阶段残差结构,缓解了网络的退化问题,在学习过程中有效地减少信息丢失,对于融合后的多光谱掌纹图像,分阶段残差结构能够稳定地将图像信息在网络间传输,但对图像中的高低频信息区分效果不够显著,为了使网络关注更多区分性特征,利用特征通道间的相互依赖性,在分阶段残差结构中结合了通道注意力(Channel Attention)机制。最终,在香港理工大学(PolyU)多光谱掌纹数据集上进行的综合实验表明,该方法可以取得良好的效果,算法识别准确率能达到99.67%且具有良好的实时性。  相似文献   

20.
朱应俊  周文君  朱川  马建敏 《应用声学》2023,42(5):1090-1098
为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号