首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
刘育坤  郑霖  黎塔  张鹏远 《声学学报》2023,(6):1260-1268
提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。  相似文献   

2.
语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。  相似文献   

3.
为了解决含噪语句分割问题,也为了解决某些低信噪比环境下传统气导语句分割算法分割效果差、分割准确度低且算法自适应性弱等问题,提出一种基于骨导语音自适应的分段双门限语音分割方法。将骨导语音和气导语音同步采集,获取抗噪性能更好的骨导语音,然后在融合过零率与短时能量中引入随机动态阈值的自适应方法进行端点检测,最后利用分段双门限和语音聚类等手段实现语音分割,提高语音分割算法的鲁棒性。通过实验验证了所提算法的有效性和可行性,同时与其他语音分割算法进行了对比,证明该文所提分割算法精度更高,效果更好。  相似文献   

4.
吕钊  吴小培  张超  李密 《声学学报》2010,35(4):465-470
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。   相似文献   

5.
王晓波  尹俊平  徐岩 《计算物理》2022,39(4):386-394
针对现实信号调制方式标注易发生错误, 即训练数据集中信号调制方式标签存在噪声情形, 我们选取l1模损失函数及其推广形式作为对标签噪声具有鲁棒性的损失函数, 结合深度卷积神经网络优良的自动特征提取能力, 提出一种针对信号调制方式存在误判噪声的深度学习算法。该算法在训练数据集合标签噪声率达50%情形下, 对信号调制方式的识别准确率依然保持较高水平。相反, 对于采用通常的交叉熵作为损失函数的深度卷积神经网络, 其已无法对信号调制方式进行分类识别。在公开的数据集上的数值实验表明, 所提算法对于标签有噪信号调制方式识别具有较强的鲁棒性。  相似文献   

6.
俞一彪  王朔中 《声学学报》2005,30(6):536-541
提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。  相似文献   

7.
提出了一种基于共同视域的自监督立体匹配算法,该算法根据视差的左右一致性来确定双目图像的共同可视区域,从而抑制被遮挡区域产生的噪声,为网络模型的学习提供了更加准确的反馈信号。研究结果表明:在没有任何标签数据的前提下,所提算法的预测误差降低了11%~42%,且与有监督立体匹配算法的性能相当。  相似文献   

8.
基于改进卷积神经网络算法的语音识别   总被引:1,自引:1,他引:0       下载免费PDF全文
杨洋  汪毓铎 《应用声学》2018,37(6):940-946
为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。  相似文献   

9.
为解决背景音及噪音等条件下音频检索识别率低的问题,提出静音掩蔽和频域分段的音频指纹检索算法。首先采用端点检测技术进行语音预处理,将有效语音帧重新组合并利用相邻子带能量差对其提取指纹特征,可有效解决静音帧指纹特征不鲁棒的问题。然后在检索匹配时根据不同音频信号在频域范围内的分布特点,对音频指纹在不同频率区间进行分段和加权,以更精确地计算模板和待检音频之间的相似度。实验表明,与Philips基线算法相比,所提算法在检索速度上提升了一倍,在受背景音等干扰的数据集上,平均准确率与召回率分别绝对提升17.94%和4.66%;与最新Philips算法相比,平均准确率与召回率分别绝对提升13.68%和2.45%。   相似文献   

10.
戴明扬  徐柏龄 《应用声学》2001,20(6):6-12,44
本文基于人耳听觉模型提出了一种鲁棒性的话者特征参数提取方法。该种方法中,首先由Gamma tone听觉滤波器组和Meddis内耳毛细胞发放模型获得表征听觉神经活动特性的听觉相关图。由听觉神经脉冲发放的锁相特性和双声抑制特性,我们将听觉相关图每个频带中的幅值最大频率分量作为表征当前频带特性的特征参量,于是所有频带的特征参量便构成了表征当前语音段特性的特征矢量;我们采用DCT交换进一步消除各个特征参量之间的相关性,压缩特征矢量的维数。有效性试验表明,该种特征矢量基本上反映了输入语音的谱包络特性;抗噪声性能实验表明,在高斯白噪声和汽车噪声干扰下,这种特征参数比LPCC和MFCC有较小的相对失真;基于矢量量化的文本无关话者辨识表明,对于三种类型的噪声干扰该种特征参数在低信噪比下都获得了较好的识别结果。  相似文献   

11.
快速准确的识别突水类型和突水来源对煤矿安全开采具有重要意义,激光诱导荧光(LIF)技术在检测中具有快速性和灵敏性,将LIF应用于煤矿突水的检测,再结合模式识别算法,可快速识别出突水来源。目前用于识别水样光谱的算法过于依赖预先建立的水样光谱数据库,当突水水源不在该库中时,易引发误识别。无监督学习算法DBSCAN在聚类时不需样本集的标签和类别信息,能降低对未知类别的误识别,因此把DBSCAN算法用于突水的激光诱导荧光光谱识别,并将MVO用于DBSCAN的参数寻优,省去繁琐的人工参数寻优过程。实验中,从谢桥煤矿采水点获取四个水样,利用像素为2 048的USB2000+光谱仪采集水样的荧光光谱,每种水样采集30组光谱数据。首先,利用无监督学习算法自动编码器(AE)对原始光谱数据降维,以减少光谱数据中冗余信息对聚类的影响,设计的AE的结构是介于浅层和深层之间的多层网络模型,可将原始光谱数据降到2维;为使降维模型具有稀疏性,在传统的AE算法中加入一个Dropout层,由实验可知,加入Dropout层后的降维模型具有较快的收敛速度。将多元宇宙优化(MVO)算法用于DBSCAN参数寻优,在参数寻优过程中,DBSCAN对降维后的水样光谱识别率最高为97.5%,此时参数所对应的取值范围为[0.023 66 0.040 65];为验证AE对水样光谱数据降维的有效性,把归一化后的未降维的光谱数据用于DBSCAN聚类识别,DBSCAN对原始水样光谱的识别率最高为95%,比降维后的后水样光谱识别率低了2.5%,结果表明,使用AE降维光谱数据,可提高DBSCAN对不同光谱的识别率。最后,用监督学习算法K最近邻(KNN)识别降维后的水样光谱,将识别结果和无监督学习算法DBSCAN的识别结果对比,其中训练集选用三种水样,测试集使用四种水样;在测试集中,监督学习算法只能准确地识别训练集所包含的水样类别,但把训练集没有的类别全部识别错误,而DBSCAN能准确的识别出训练集中没有的水样光谱。非线性降维算法AE能实现对高维的水样光谱数据降维,把MVO-DBSCAN用于煤矿突水水源的LIF光谱识别,可有效降低因矿井水源光谱数据库建立不完备而引起的误识别。  相似文献   

12.
《光学技术》2021,47(1):113-119
为了提高视频识别领域中微表情识别的准确率,提出了一种基于长短期记忆网络与特征融合的微表情识别算法。提取微表情图像的颜色特征和纹理特征,将所提取的空间特征传入卷积神经网络进行融合。设计了学习时域相关性的长短期记忆网络结构,将融合的特征集传入长短期记忆网络学习微表情的时域特征,将长短期记忆网络接入分类器网络识别出微表情的类标签。在两个公开的微表情识别数据集上完成了验证实验,结果显示算法实现了较好的微表情识别性能,在SMIC数据集和CASMEⅡ数据集上的准确率分别达到64.7%和65.8%.  相似文献   

13.
以散斑噪声为主的噪声干扰严重影响视网膜光学相干层析(OCT)图像质量。深度学习是一种有效的去噪方法。但对活体成像而言,其很难获取多帧配准的真值图像,这影响了监督学习方法的效果。提出一种无监督深度残差稀疏注意力网络用于视网膜OCT图像去噪,并分别从视觉评价和数值评价两方面与传统的三维块匹配滤波去噪算法和经典的深度学习去噪网络进行对比。研究了监督学习与无监督学习策略下3种卷积神经网络的去噪性能,并利用公开的视网膜OCT图像数据集进行泛化能力测试。实验结果表明:所提算法的视觉评价和数值评价均具有良好的降噪效果,可以实现视网膜OCT图像高质量降噪,具有较强的泛化性,而且与监督学习相比,无监督学习在数据集不充分时仍能获得较好的降噪性能,可以有效地辅助医生进行准确高效的临床诊断。  相似文献   

14.
尹乾  车润琪  杨如意  郑新 《光学技术》2023,(6):680-684+698
为了解决脉冲星识别研究局限在常规分类算法的视野中而缺乏针对性的问题,文章针对脉冲星数据集的特点,挖掘其内在特征与其他研究领域的关联性,发现了脉冲星数据与长尾分布之间存在的联系,探求脉冲星数据与长尾分布的特征一致性,首次将脉冲星数据分布看作长尾分布的一种特例。并从长尾视觉识别视角中的优化训练策略角度出发,提出了一种基于解耦训练策略的脉冲星识别算法。算法采用解耦训练策略,在操作上简捷高效,具备更强的可移植性。经过数据集的验证,算法能有效改善决策边界,在HTRU_bands和HTRU_ints数据集的召回率相较于对比方法分别提升了11.8%和13%,是一种性价比较高的有效识别算法。  相似文献   

15.
针对现有基于字典学习的增强算法需要先验信息、不易实时处理的问题,提出一种便于实时处理的无监督的单通道语音增强算法。首先,该算法将无监督条件下背景噪声的建模问题转化为带噪语音幅度谱的稀疏低秩噪声分解;然后,采用增量非负子空间方法对背景噪声进行在线字典学习,获得能够体现背景噪声时变特性的自适应噪声字典;最后,利用所得的噪声字典,采用易于实时处理的逐帧迭代方式,对带噪语音进行处理。实验结果表明:相较于多带谱减法和基于低秩稀疏矩阵分解的增强算法,所提算法在噪声抑制方面的性能尤为显著,在多项性能评价指标上,均表现出更好的结果。  相似文献   

16.
李轶南  张雄伟  贾冲  陈亮  曾理 《声学学报》2015,40(4):607-614
针对现有基于字典学习的增强算法需要先验信息、不易实时处理的问题,提出一种便于实时处理的无监督的单通道语音增强算法。首先,该算法将无监督条件下背景噪声的建模问题转化为带噪语音幅度谱的稀疏低秩噪声分解;然后,采用增量非负子空间方法对背景噪声进行在线字典学习,获得能够体现背景噪声时变特性的自适应噪声字典;最后,利用所得的噪声字典,采用易于实时处理的逐帧迭代方式,对带噪语音进行处理。实验结果表明:相较于多带谱减法和基于低秩稀疏矩阵分解的增强算法,所提算法在噪声抑制方面的性能尤为显著,在多项性能评价指标上,均表现出更好的结果。   相似文献   

17.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

18.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。   相似文献   

19.
提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。  相似文献   

20.
深度非线性度量学习在说话人确认中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
将非线性度量学习(Nonlinear Metric Learning,NML)应用于说话人确认,提出了一种基于深度独立子空间分析(Independent Subspace Analysis,ISA)网络的说话人确认方法。区别于传统的线性度量学习方法,该方法使用深度独立子空间分析网络来学习一种从说话人原始空间到优化子空间的非线性显式映射,并在此基础上计算两条语音之间的相似性,以获得更好的说话人确认性能.所提方法在NIST SRE 2008数据集上进行了评估。评估结果表明,所提算法的等错误率指标相比传统的基于余弦距离打分的i-vector算法、线性判别分析(Linear Discriminant Analysis,LDA)算法、概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)算法分别下降了11.02%,6.40%和4.579%。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号