首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
认人的限定主题的连续汉语语音识别系统的研究   总被引:3,自引:0,他引:3  
本文描述一个基于矢量量化(VQ)、隐马尔可夫模型和有限态文法的认人的限定主题的连续汉语语音识别系统。引入跨零幅度差函数作为判定语音有无的特征参量之一,HMM训练用的各单个词语的语音数据由连续话句的语音数据经自动切分而得,识别过程中,每帧都考虑多个可能过渡到其它模型的文法节点。这些技术措施显著地提高了识别系统的准确率。这类系统能用于特定人操作的、特定主题的信息查询任务。待进一步解决非特定人的连续语音识别问题后,可用于特定主题的公用信息查询系统。  相似文献   

2.
提出了利用偶数帧段输入隐马尔可夫模型(HMM)提高在噪声环境下汉语连续语音识别系统鲁棒性的方法,并提出了对于传统谱相减降噪技术的修改方法。实验结果表明,本文的方法能有效地提高噪声背景下汉语连续语音识别系统的性能。  相似文献   

3.
基于半波差分谱的语音信号音节切分   总被引:1,自引:1,他引:0  
根据听觉感知系统对于动态语音特征的响应特点,提出了半波差分港的概念,在此基础上提出了一种简便的音节切分算法,可以将存在大量协同发音现象的连续语音切分成一个个音节。在连续语音上的切分实验结果说明这种切分算法是准确而可靠的.  相似文献   

4.
汉语普通话双基频检测   总被引:1,自引:0,他引:1  
鉴于传统方法在语音双基频检测方面的局限性,本文提出了汉语双基频检测(DDPM)的方法.该方法利用混合汉语语音在短时帧之内的准周期性,经搜索得到每一帧内的双基频候选点,再根据正常情况下人的发音在相邻帧内基频不产生突变的特点,实现了双基频检测.应用此方法,在纯净与加噪的情形下,对汉语四种声调单音节的各种组合分别进行了检测实验,检测效果十分理想.新方法也可以直接应用到连续语音双基频的检测.  相似文献   

5.
李皓  唐朝京 《声学学报》2012,37(3):339-345
为实现鲁棒的声韵母切分,以满足大词汇量连续语音识别系统的需求,提出一种建立损失函数,并利用浊音的“准”周期性和声母时长进行声韵母切分的方法。首先计算语音的自相关函数,接着建立代价损失函数,对计算结果采用动态规划方法检测浊音,然后根据声母时长分布规律确定声母的检测范围,最后在检测范围内对浊音段起始点前后采用听觉事件检测方法分割出声韵母。实验结果表明,采用动态规划方法相对于阈值方法提高了浊音段的检测性能,在浊音段的基础上对声韵母进行切分能够提高切分的正确率,减少噪声及汉语音变现象的影响,切分性能受声母发音方式影响较小。   相似文献   

6.
基于听觉事件检测的汉语语音声韵切分   总被引:2,自引:0,他引:2  
张宝奇  张连海  屈丹 《声学学报》2010,35(6):701-707
提出了一种基于听觉事件检测的汉语声韵母切分方法。该方法首先使用耳蜗滤波器组对语音进行滤波,然后在每个频带上检测对应于能量突变的听觉事件,最后在不同频率范围对听觉事件进行融合以确定声韵母边界。实验结果表明,对8 kHz采样的干净语音切分准确率可达到88.9%;信噪比10 dB的语音切分准确率可达到82.9%以上。   相似文献   

7.
汉语语音资料库的语音学标记及人工切分   总被引:2,自引:0,他引:2  
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析.  相似文献   

8.
提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌EM迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准HMM及趋势HMM。  相似文献   

9.
蒋斌  匡正  吴鸣  杨军 《声学学报》2012,37(6):659-666
实验研究了帧长对汉语音段反转言语可懂度的影响。实验结果表明,帧长在64 ms以下,汉语音段反转言语具有较高的可懂度;帧长在64~203 ms之间,可懂度随帧长的增加逐渐降低;帧长在203 ms以上,可懂度为0。在帧长8 ms时,汉语的声调失真导致可懂度下降。原始语音信号和音段反转言语的调制谱的分析表明,调制谱失真大小和可懂度密切相关。因此,用原始语音信号和音段反转言语的窄带包络间的归一化相关值可以衡量调制谱失真大小,基于语音的语言传输指数法计算的客观值和实验结果显著相关(r=0.876,p<0.01)。研究表明,语言可懂度与窄带包络有关,音段反转言语的可懂度和保留原始语音信号的窄带包络密切相关。   相似文献   

10.
简志华  王向文 《声学学报》2014,39(3):400-406
提出了一种基于压缩感知的考虑语音帧间信息的语音转换算法。根据连续多帧语音的线谱对参数所构成的矢量在离散余弦变换域具有稀疏性,利用压缩感知技术对该矢量压缩成短矢量,并将该压缩后的短矢量作为特征参数训练语音转换函数。实验测试结果表明,选择合适的语音帧数时,该算法的性能要比传统的采用加权频率卷绕的转换算法提高3.21%。这说明,充分有效地利用语音帧间的相关信息会使转换语音保持更稳定的帧间声学特性,有利于提高语音转换系统的性能,   相似文献   

11.
基于听觉模型的耳语音的声韵切分   总被引:5,自引:0,他引:5       下载免费PDF全文
丁慧  栗学丽  徐柏龄 《应用声学》2004,23(2):20-25,44
本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频域非线性变化;中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性,因而适于耳语音识别,在耳语音声韵母切分实验中得到了满意的结果。  相似文献   

12.
为解决背景音及噪音等条件下音频检索识别率低的问题,提出静音掩蔽和频域分段的音频指纹检索算法。首先采用端点检测技术进行语音预处理,将有效语音帧重新组合并利用相邻子带能量差对其提取指纹特征,可有效解决静音帧指纹特征不鲁棒的问题。然后在检索匹配时根据不同音频信号在频域范围内的分布特点,对音频指纹在不同频率区间进行分段和加权,以更精确地计算模板和待检音频之间的相似度。实验表明,与Philips基线算法相比,所提算法在检索速度上提升了一倍,在受背景音等干扰的数据集上,平均准确率与召回率分别绝对提升17.94%和4.66%;与最新Philips算法相比,平均准确率与召回率分别绝对提升13.68%和2.45%。   相似文献   

13.
A voice conversion algorithm,which makes use of the information between continuous frames of speech by compressed sensing,is proposed in this paper.According to the sparsity property of the concatenated vector of several continuous Linear Spectrum Pairs(LSP)in the discrete cosine transformation domain,this paper utilizes compressed sensing to extract the compressed vector from the concatenated LSPs and uses it as the feature vector to train the conversion function.The results of evaluations demonstrate that the performance of this approach can averagely improve 3.21%with the conventional algorithm based on weighted frequency warping when choosing the appropriate numbers of speech frame.The experimental results also illustrate that the performance of voice conversion system can be improved by taking full advantage of the inter-frame information,because those information can make the converted speech remain the more stable acoustic properties which is inherent in inter-frames.  相似文献   

14.
针对交通监控场景中多目标粘连造成跟踪上的困难和前后两帧车辆关联困难,提出了区域运动相似性分割方法和相似度关联矩阵的解决方案;在运动目标检测过程中, 首先使用背景差分法提取运动区域,经过消除缺口、空洞和分离等处理,在运动区域所在范围内进行块匹配搜索和局部光流计算区域运动矢量,然后使用模糊聚类方法对运动矢量区域融合,完整的分割出粘连运动目标;在目标跟踪部分,目标跟踪建立在目标关联的基础上,提出建立连续两帧目标间距离和局部二元模式相似度关联矩阵的方法进行运动目标标定,从而实现多目标关联;使用公共视频库的图像序列进行测试,所提算法都能实现连续的跟踪和准确的运动目标分割,且处理速度快,表明了算法具有鲁棒性和适用性。  相似文献   

15.
为了解决含噪语句分割问题,也为了解决某些低信噪比环境下传统气导语句分割算法分割效果差、分割准确度低且算法自适应性弱等问题,提出一种基于骨导语音自适应的分段双门限语音分割方法。将骨导语音和气导语音同步采集,获取抗噪性能更好的骨导语音,然后在融合过零率与短时能量中引入随机动态阈值的自适应方法进行端点检测,最后利用分段双门限和语音聚类等手段实现语音分割,提高语音分割算法的鲁棒性。通过实验验证了所提算法的有效性和可行性,同时与其他语音分割算法进行了对比,证明该文所提分割算法精度更高,效果更好。  相似文献   

16.
In the work described here, the backpropagation neural network learning procedure is applied to the analysis and recognition of speech. This procedure takes a set of input/output pattern pairs and attempts to learn their functional relationship; it develops the necessary representational features during the course of learning. A series of computer simulation studies was carried out to assess the ability of these networks to accurately label sounds, to learn to recognize sounds without labels, and to learn feature representations of continuous speech. These studies demonstrated that the networks can learn to label presegmented test tokens with accuracies of up to 95%. Networks trained on segmented sounds using a strategy that requires no external labels were able to recognize and delineate sounds in continuous speech. These networks developed rich internal representations that included units which corresponded to such traditional distinctions as vowels and consonants, as well as units that were sensitive to novel and nonstandard features. Networks trained on a large corpus of unsegmented, continuous speech without labels also developed interesting feature representations, which may be useful in both segmentation and label learning. The results of these studies, while preliminary, demonstrate that backpropagation learning can be used with complex, natural data to identify a feature structure that can serve as the basis for both analysis and nontrivial pattern recognition.  相似文献   

17.
基于差分交集的视频对象分割与跟踪算法   总被引:3,自引:0,他引:3  
王成儒  顾广华 《光学技术》2004,30(5):564-566
视频对象分割算法的性能好坏将直接影响MPEG 4编码产品的质量。连续两次差分后自适应处理,对差分图像取交集获得运动对象的边界,形态学处理后最终获取运动目标。基于改进的Hausdorff距离度量法对后续帧中视频对象进行跟踪。实验结果证明,该方法能够从背景不变的图像序列中较好的提取出运动对象,具有较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号