首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。  相似文献   

2.
一种基于噪声动态检测的语音端点检测算法   总被引:1,自引:0,他引:1  
HMM技术在语音识别中得到较为成功的应用.本文基于HMM的孤立词语音识别系统的识别策略,提出了两个改进的算法.第一种算法是对背景噪声进行动态估计的汉语语音端点检测算法,较一些常规的端点检测方法如基于能量的端点检测方法,具有更高精度和鲁棒性,第二种算法针对分裂法进行码本设计时,可能出现除数为零的计算错误,提出了避免出现计算错误的改进算法.通过进行汉语孤立词语音识别实验,表明这两种算法是有效的,得到较高的识别率.  相似文献   

3.
语音信号端点检测方法研究   总被引:1,自引:0,他引:1  
介绍了语音信号的3种端点检测方法.即能量过零率检测方法、基于频带方差的检测方法和语音短时信息熵检测方法,并对3种方法的优缺点进行分析.  相似文献   

4.
HMM技术在语音识别中得到较为成功的应用,本文基于HMM的孤立词语音识别系统的识别策略,提出了两个改进的算法.第一种算法是对背景噪声进行动态估计的汉语语音端点检测算法,较一些常规的端点检测方法如基于能量的端点检测方法,具有更高精度和鲁棒性.第二种算法针对分裂法进行码本设计时,可能出现除数为零的计算错误,提出了避免出现计算错误的改进算法.通过进行汉语孤立词语音识别实验,表明这两种算法是有效的,得到较高的识别率.  相似文献   

5.
为提高实时通信中语音端点检测系统的性能,提出了一种基于能量和鉴别信息的端点检测算法。该算法利用帧信号的能量、子带信号的能量等参数,计算该帧信号与噪声帧基于子带能量分布概率的鉴别信息。算法通过利用鉴别信息,能够在包括语音帧在内的所有帧中更新噪声的能量,从而更准确地跟踪噪声能量的变化。实验结果表明:与基于能量的端点检测算法相比,该方法在信噪比变化比较剧烈的情况下仍然能够较准确地进行端点检测,在0~10 dB范围内变化的坦克噪声环境中,准确率比后者提高约24%。  相似文献   

6.
语音信号识别系统预处理阶段中一个关键步骤是语音信号的端点检测,其精准性直接决定了整个语音识别系统的识别效果. 传统的短时能量和短时过零率双门限检测法中后端点检测存在偏差,且在有噪声的情况下鲁棒性较差. 从动态阈值、短时平均过零率、端点修复、动态检测等方面入手,改进了双门限检测法. 优化了的端点检测算法,使得语音识别系统能够更精确地识别和提取语音,减少了语音识别时间,提高了识别率. 进一步将无用信号和语音信号完全分离开来,有利于后续语音识别的研究.  相似文献   

7.
噪声环境中基于HMM模型的语音信号端点检测方法   总被引:8,自引:1,他引:8  
在噪声环境下如何提高语音信号端点检测的准确性是自动语音识别(ASR)研究中的一个重要课题.常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下,检测性能不够理想.讨论了一种基于HMM模型的语音信号端点检测方法.先用训练的方法生成背景噪声和废料的模型,再用Viterbi解码算法对待测信号进行处理,并给出了具体的实现方法.实验测试结果表明,基于HMM的端点检测方法的检测性能接近于人工检测,方法是有效的.  相似文献   

8.
针对传统方法难以处理连音分割的问题,提出基于信息熵的粒子群优化分割方法.利用信息熵对语音进行粗分割,在长语音段计算时间序列复杂度的基础上,通过粒子群优化算法,寻找以长语音段的信息熵均值为适应值的分割点.实验结果表明,与基于短时能量与过零率、信息熵等分割算法相比较,提出的粒子群优化分割方法在分割准确率上有较大提高.  相似文献   

9.
低信噪比下基于谱熵的语音端点检测算法   总被引:14,自引:0,他引:14  
为提高语音端点检测系统在低信噪(0 dB以下)下检测的准确率,提出了一种基于谱熵的端点检测算法。将每帧信号分为16个子带,选取频谱分布在250~3.5 kH z并且能量不超过该帧总能量90%的子带,计算经过语音增强后的子带能量以及各子带信噪比,根据各子带信噪比的不同调整其在整个谱熵计算过程中的权重,然后平滑谱熵,以最终的谱熵作为端点检测的依据。实验结果表明,此方法在较低的信噪比下能够显著地提高端点检测的准确率。对坦克噪声,检测效果明显优于G.729中的端点检测算法,即使在-5 dB的信噪比下,仍然可以达到95%以上的检测率。  相似文献   

10.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

11.
在复杂交通场景中,公安和交管部门对车型识别的实时性和精度提出了更高要求。针对当前假牌、套牌、无牌车辆处理占用大量警力、检索效率低下、非智能化等一系列问题,提出了一种基于GoogleNet深度卷积神经网络的车型精细识别方法,设计了合理的卷积神经网络滤波器大小和数目,优选了激活函数和车型识别分类器,构建了一个新的卷积神经网络轿车车型精细识别模型框架。实验结果表明,在车型精细识别测试中,所提出模型的识别率达到了97%,较原始GoogleNet模型有较大提升,而且,新模型有效地减少了训练参数的数量,降低了模型的存储空间。车型精细识别技术可应用于智能交通管理领域,具有重要的理论研究价值与实践意义。  相似文献   

12.
基于小波变换的语音激活检测   总被引:4,自引:0,他引:4  
为了提高语音激活检测在多种噪声环境下的检测性能,基于语音与噪声相区别的主要特征,提出了一种基于小波变换的语音激活检测算法.算法将信号频带划分为多个子带,提出用归一化谱分布向量表征信号的谱分布特性,利用小波检测信号分形特征的能力,提出用信号的自相关指数来表征信号的自相关性,结合归一化谱分布向量的线性加权和自相关指数两个因素得出新的激活检测判决准则.实验仿真结果与ITU标准G.729和ETSI标准AMR2中的检测性能进行了分析比较.结果表明,该算法在多种噪声环境下都具有较高的准确率和稳定性.  相似文献   

13.
【目的】植被检测是城市生态研究的重要手段,然而由于遥感图像中植被存在阴影区域、遮挡区域以及色彩上的畸变等,导致当前的植被检测精度较低。基于遥感卫星影像,采用深度学习技术快速有效地检测出城市中的植被区域,为植被资源统计等相关研究提供依据。【方法】选用深度卷积神经网络模型,对高分辨率遥感影像中的植被区域进行检测。对不同的优化器,通过设置不同的卷积核大小,对精度进行对比分析。最后对网络层数进行研究,对设置合适网络层数进行分析,用构造的深度卷积神经网络在实验数据上进行植被区域检测。【结果】利用卷积神经网络处理二维图像时,无需手动提取特征,进行简单少量的预处理后,直接把图像输入到CNN模型中进行训练,即可实现图片的识别分类功能。降低了预处理的难度,同时局部感知和权值共享大幅度地减少了参数量,加快了计算速度。次抽样还能保证图像处理后的平移、旋转、缩放和拉伸的不变性。解决了传统方法计算量和样本量大、结构复杂以及费时的缺点。在采集到的高分辨率紫金山区域的遥感图像中,通过设计的多层卷积神经网络模型对区域中的植被资源进行分析,对比和研究不同的优化器、卷积核和网络层数,植被检测精度达到95.4%,明显高于当前众多植被检测算法。【结论】在深度学习中,目标检测的精度依赖于网络的结构设置,通过对优化器、卷积核以及网络层数进行设定,可以明显提高目标检测效率和精度。  相似文献   

14.
为在有色非高斯噪声背景下实时、有效地区分语音信号与各种背景噪声,提出了一种基于灰关联分析的语音激活检测(VAD)算法.该算法提取语音信号过零率、线性预测系数、倒谱系数和转移倒谱系数4种特征参数作为关联参数,通过跟踪语音与噪声灰关联度的变化确定判决门限,实现语音激活检测.仿真结果表明:该算法在无噪声背景中识别率为100%,在-5 dB噪声背景环境,识别率可达80%以上.此算法对有色非高斯背景噪声不敏感,而且计算简单、可靠性高,在语音激活检测中具有可行性.  相似文献   

15.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

16.
在无人机巡检图像中,检测出绝缘子是实现输电线路状态分析的关键.本研究采用轻量级卷积神经网络代替传统的人工特征提取器,获取输入图像的深层特征;利用深度学习目标检测网络对所提取特征进行处理和训练学习,实现多尺度、多种类的绝缘子目标检测.实验结果表明:该方法可以准确快速地识别出以山林背景为主的瓷质和复合两类绝缘子,其检测精度...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号