首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。  相似文献   

2.
基于广义判别分析的光谱分类   总被引:5,自引:4,他引:1  
提出了基于广义判别分析(generalized discriminant analysis, GDA)方法对恒星(Star)、星系(Galaxy)和类星体(Quasars)的光谱进行分类。广义判别分析将核技巧与Fisher判别分析结合起来,通过非线性映射将样本集映射到高维特征空间F,在F空间中进行线性判别分析。实验对比了LDA, GDA, PCA, KPCA算法对于恒星、星系和类星体的光谱分类性能。结果表明基于GDA的算法对于这3种类型光谱的分类正确率最高,LDA次之;尽管KPCA也是一种基于核的方法,但是选择主成分个数较少时效果较差,甚至低于LDA;基于PCA的分类效果最差。  相似文献   

3.
探讨了可见-近红外光谱技术快速无损识别不同品牌车蜡的可行性。实验一共获得104 样本,其中40个样本(建模集)用于建立模型,剩余64个样本(预测集)被用于独立验证建立好的模型。基于五种不同品牌车蜡的可见-近红外光谱分别建立了线性判别分析(linear Discriminant Analysis,LDA)和最小二乘支持向量机(least square-support vector machine, LS-SVM)模型。基于两个算法的全波段光谱模型的预测集正确率分别达到了84%和97%。进一步采用连续投影算法(successive projections algorithm, SPA)算法从751波段中选取了7个特征波段(351, 365, 401, 441, 605, 926和980 nm)。基于SPA选择的变量建立LS-SVM模型,准确率依然保持在97%。说明SPA选择的特征波段包含了对于车蜡品牌鉴别最重要的光谱信息,而大多数无用信息则被有效剔除。将SPA与LS-SVM算法的车蜡识别模型在保证正确率的基础上,还可以大大降低模型计算复杂程度,说明该模型能快速准确的从车蜡可见-近红外光谱中提取有效信息,并实现车蜡品牌的无损鉴别。  相似文献   

4.
基于最大似然多项式回归的鲁棒语音识别   总被引:2,自引:0,他引:2  
吕勇  吴镇扬 《声学学报》2010,35(1):88-96
本文针对最大似然线性回归算法线性假设的缺点,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域用多项式回归方法,逼近每个Mel子带上识别环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则从识别环境下的少量自适应数据中估计。实验结果表明,二阶多项式就可以较好地逼近模型均值的非线性环境变换关系。在噪声补偿和说话人自适应实验中,最大似然多项式回归算法的误识率都明显低于最大似然线性回归算法。本文算法较好地克服了线性模型自适应算法线性假设的缺陷,可同时减小噪声,和说话人的改变或其它因素对语音识别系统的影响,尤其适合说话人和噪声的联合自适应。   相似文献   

5.
《光学学报》2021,41(7):180-189
高光谱图像包含着丰富的光谱信息,单幅RGB重建高光谱图像在军事目标识别和医学诊断领域具有重要价值。传统算法无法对未知相机光谱响应的RGB图像进行重建,针对此问题,本文提出了一种基于改进残差密集网络的重建算法。首先,将改进的残差密集块作为残差密集网络的基本模块,使用自适应权重模块对特征通道进行特征重标定,使高光谱重建精度得到了提高。其次,用特征变换层替代原来网络的空间变换层,将解决图像超分辨率问题转换成解决高光谱重建问题,实现网络从空间维度到光谱维度的转变。实验结果表明:本文所提算法无论是在主观效果上还是在客观评估指标上均优于主流的传统方法和深度学习方法,与稀疏字典方法相比,本文算法的平均相对绝对误差(MRAE)和均方根误差(RMSE)分别下降了46.7%和44.8%。  相似文献   

6.
针对极化合成孔径雷达(SAR)应用中存在的特征冗余问题,结合线性判别分析(LDA)和局部线性嵌入(LLE)的思想,提出一种半监督降维算法:半监督局部判别分析(SLDA)。该算法首先基于LLE的局部保持特性建立正则项,以避免学习中的过拟合问题。然后,在标记样本集上进行正则化的判别分析,以增强算法的推广能力,同时保持所有样本点在原始空间的局部几何结构。利用RADARSAT-2和AIRSAR卫星获得的Flevoland地区的全极化SAR数据进行降维实验,结果表明SLDA提取的低维特征具有"类内紧聚,类间分离"的特性;进一步的分类实验结果表明,SLDA只需1‰~2‰的标记样本就能使分类精度达到90%左右,分类性能优于其他对比方法。  相似文献   

7.
程宁  刘文举 《声学学报》2009,34(6):554-565
针对信号子空间语音增强算法中的子空间选择和线性滤波器中噪声功率谱和拉格朗日乘子的估计问题,用高斯、拉普拉斯和伽玛模型描述了语音的分布,提出了利用目标语音概率最大化来确定信号子空间维度的方法。在噪声子空间上,利用条件概率估计出噪声功率谱。接着,为了合理地折中增强语音中的残余噪声和语音畸变,提出了一种基于人耳听觉掩蔽效应的拉格朗日乘子估计方法。实验证明,在多项语音质量评价指标上,所提算法都取得了更好的结果。所提的信号子空间算法比传统的信号子空间算法更有效地消除了噪声,使得恢复的语音具有更好的质量。   相似文献   

8.
针对基于孪生网络的目标跟踪算法存在抗干扰能力弱、鲁棒性差等问题,在SiamCAR基础上提出通道和空间注意力融合的目标跟踪算法。在特征提取子网络和分类回归子网络之间级联改进后的高效通道注意力和空间注意力模块,加强网络对互相关后响应图中重要通道特征和位置特征的关注,同时抑制不重要的特征信息。在OTB100上,所提算法在背景杂乱挑战下成功率和精度相比SiamCAR分别提高了3.1%和2.8%;在VOT2018上,所提算法的鲁棒性和期望平均重叠率相比SiamCAR分别提高了4.9%和2.2%。实验结果表明,所提算法增强了跟踪器的鲁棒性,提升了跟踪器在复杂场景下的跟踪效果。  相似文献   

9.
张文林  屈丹  李弼程 《声学学报》2014,39(4):523-530
针对现有子空间自适应方法无法确定最佳说话人子空间的问题,提出一种基于匹配追踪的说话人自适应方法。将说话人自适应视为一种高维信号的稀疏分解问题,利用本征音和参考说话人超矢量的各自优势联合构造说话人字典;依据匹配追踪原理,通过迭代优化,以后验方式确定最佳说话人子空间维数及其基矢量。引入冗余基矢量检测与去除机制以保证算法的稳定性,并通过快速递推算法得到新说话人坐标。基于汉语连续语音识别的有监督说话人自适应实验结果表明,与本征音及参考说话人加权方法相比,平均有调音节正识率相对提高了1.9%。   相似文献   

10.
毕晓君  汪灏 《光学学报》2019,39(6):254-263
提出一种基于视角信息嵌入的行人重识别模型。结合行人图像视角朝向特点,对PSE (pose-sensitive embedding)网络结构进行了优化。首先将PSE特征向量融合部分由特征的融合改成更符合不同视角特征空间性质的三个视角单元特征向量的拼接;其次视角单元从骨架网络更浅层的blocks-3进行分离,增加三个视角单元特征空间的差异性;最后利用改进的深度可分离卷积,设计了一个深度可分离模块,对视角单元进一步进行提取特征,防止模型参数过大的同时提高网络非线性能力,从而提高网络的泛化能力。利用Market1501、Duke-MTMC-reID和MARS数据集对所提的算法进行有效性验证实验,结果表明所提的改进方法取得了更好的识别效果。  相似文献   

11.
说话人识别技术是一项重要的生物特征识别技术。近年来,使用深度神经网络提取发声特征的说话人识别算法取得了突出成果。时延神经网络作为其中的典型代表之一已被证明具有出色的特征提取能力。为进一步提升识别准确率并节约计算资源,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率(EER)和0.15的最小检测代价标准(DCF),证明了在说话人识别任务上的有效性。  相似文献   

12.
深浅层特征及模型融合的说话人识别   总被引:4,自引:0,他引:4       下载免费PDF全文
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。   相似文献   

13.
温静李洁  高新波 《光子学报》2014,39(6):1047-1052
由于传统的子空间方法易于丢失图像目标的二维特性,为此本文提出了一种新颖的自适应目标跟踪算法,通过张量的方式建立目标的外观模型——张量子空间,利用在线学习的方法更新其外观模型,同时,利用目标仿射运动的先验信息,通过粒子滤波自适应地跟踪运动目标,并将获得的最优目标观测作为新数据反馈回子空间更新.此外,为了保证子空间更新能获得精确且紧致的目标子空间表达,引入动态部分函数滤除样本野点.实验结果表明,本文提出的自适应目标跟踪方法具有较强的鲁棒性,对于存在姿态变化、短时遮挡和光照变化等情况下均可有效地跟踪目标.  相似文献   

14.
In order to further improve the performance of speaker recognition, features fusion and models fusion are proposed. The features fusion method is to fuse deep and shallow features. The fused feature describes speaker characteristics more comprehensively than a single feature because of the complementarity between different levels of features. The models fusion method is to fuse i-vectors extracted from different speaker recognition systems. The fused model can combine advantages of different speaker recognition systems. Experimental results show the effectiveness of the proposed methods. Compared with the state-of-the-art system on CASIA North and South dialect corpus,the proposed features fusion system and models fusion system achieved about 54.8% and 69.5% relative improvement on the equal error rate(EER),respectively.  相似文献   

15.
长时语音特征在说话人识别技术上的应用   总被引:1,自引:0,他引:1  
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。   相似文献   

16.
蒿晓阳  张鹏远 《声学学报》2022,47(3):405-416
常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。   相似文献   

17.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。   相似文献   

18.
Effective and rapid assessment of pork freshness is significant for monitoring pork quality. However, a traditional sensory evaluation method is subjective and physicochemical analysis is time-consuming. In this study, the near-infrared spectroscopy (NIRS) technique, a fast and non-destructive analysis method, is employed to determine pork freshness. Considering that commonly used statistical modeling methods require preprocessing data for satisfactory performance, this paper presents a one-dimensional squeeze-and-excitation residual network (1D-SE-ResNet) to construct the complex relationship between pork freshness and NIRS. The developed model enhances the one-dimensional residual network (1D-ResNet) with squeeze-and-excitation (SE) blocks. As a deep learning model, the proposed method is capable of extracting features from the input spectra automatically and can be used as an end-to-end model to simplify the modeling process. A comparison between the proposed method and five popular classification models indicates that the 1D-SE-ResNet achieves the best performance, with a classification accuracy of 93.72%. The research demonstrates that the NIRS analysis technique based on deep learning provides a promising tool for pork freshness detection and therefore is helpful for ensuring food safety.  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号