共查询到18条相似文献,搜索用时 93 毫秒
1.
2.
研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。 相似文献
3.
4.
5.
6.
普通话单韵母的听觉规范 总被引:1,自引:0,他引:1
用普通话若干孤立单韵母作语音材料,有三级性别或年龄不同的发音人,通过声学分析和统计分析,比较了言语识别预加工的三种听觉模型.这些模型由几种不同的听觉变换和规范构成.实验的效果表明,最佳的听觉变换为Erb,但几种规范之间却没有明显的差别.Chistovich的频谱重心效应对普通话单韵母也是适用的,韵母的临界距离估算为3.0Bark或3.5Erb. 相似文献
7.
汉语连续语音数据库的语料设计 总被引:10,自引:0,他引:10
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。 相似文献
8.
基于随机轨迹模型的汉语连续语音识别方法研究 总被引:1,自引:0,他引:1
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。 相似文献
9.
10.
基于发音特征的汉语普通话语音声学建模 总被引:3,自引:0,他引:3
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 相似文献
11.
12.
为了提高加速鲁棒特征(SURF)算法的实时性和准确性,本文提出了一种结合AGAST角点检测和改进的SURF特征描绘算法。首先利用AGAST角点检测模板检测特征点,再使用增加对角信息的哈尔小波响应来生成特征点的描述子,之后利用特征袋对产生的描述子进行编码并生成新的特征向量,最后利用支持向量机(SVM)对特征向量进行分类,完成识别。本文以SIFT和SURF算法为对照,分别进行不同视角、光照和尺度的识别实验。实验结果表明,本文算法的平均识别率为98.0%、96.9%、97.1%,平均时间分别为66.1 ms、79.3 ms、41.0 ms,在识别率上较优于SURF算法,所耗时间约是SURF算法的1/3。 相似文献
13.
14.
YIN Hui XIE Xiang KUANG Jingming 《声学学报:英文版》2011,(4):453-463
It is well known that auditory system of human beings has excellent performance which automatic speech recognition(ASR) systems can’t match,and fractional Fourier transform (FrFT) has unique advantages in non-stationary signal processing.In this paper,the Gammatone filterbank is applied to speech signals for front-end temporal filtering,and then acoustic features of the output subband signals are extracted based on fractional Fourier transform. Considering the critical effect of transform order for FrFT,an order adaptation method based on the instantaneous frequency is proposed,and its performance is compared with the method based on ambiguity function.ASR experiments are conducted on clean and noisy Putonghua digits,and the results show that the proposed features achieve significantly higher recognition rate than the MFCC baseline,and the order adaptation method based on instantaneous frequency has much lower complexity than that based on ambiguity function.Further more,the FrFT-based features achieve the highest recognition rate using the proposed order adaptation method. 相似文献
15.
分数阶Fourier变换在处理非平稳信号尤其是chirp信号方面有着独特的优势,而人耳听觉系统具有自动语音识别系统难以比拟的优良性能。本文采用Gammatone听觉滤波器组对语音信号进行前端时域滤波,然后对输出的各个子带信号用分数阶Fourer变换方法提取声学特征。分数阶Fourier变换的阶数对其性能有着重要影响,本文针对子带时域信号提出了采用瞬时频率曲线拟合求取阶数的方法,并将其与采用模糊函数的方法作了比较。在干净与含噪汉语孤立数字库上的语音识别结果表明,采用新提出的声学特征得到的识别正确率相对MFCC基线系统有了显著提高;根据瞬时频率曲线搜索阶数的算法与模糊函数方法相比,计算量大大减少,并且根据该方法提取的声学特征得到了最高的平均识别正确率。 相似文献
16.
OU Guiwen 《声学学报:英文版》1994,(1)
I.Intr0ductionNowadays,thereismuchadvancemcntinthcrcsearchintospeechrecognition.Manyresearchershavebecninterestedintheimplementationofareliab1crealtimerec-ognitionsystemofunlimitedv0cabu1ary.Thercareafewproductsconversingsyl1ablesintoChinesecharactersinthemarket.However,theimp1ementationofarobustrealtAnerecognitionsystemofunlimitcdvocabularyisvcrydifficu1t,anditisthcgreataimofourresearch.WehaveaTMS32O-C25signa1processingboardattachedtoacomputerofthM-PC/AT80386.Wehopcthatourspeechrecognit… 相似文献
17.
计算机视觉方法越来越多地应用于斑马鱼的群体行为研究;但是,由于斑马鱼游动过程形体变化大,遮挡多,准确与鲁棒地检测出斑马鱼仍然是一件非常具有挑战性的问题。为了解决该问题,提出一种基于斑马鱼图像特征的鱼群检测算法。首先通过分析目标特性,提出使用鱼头和鱼尾替代全鱼的检测方法,解决了传统整鱼检测在鱼群交叉遮挡时失效的难题;然后基于斑马鱼图像特征自动构建训练集,避免了深度学习手动标注的费时费力问题。通过对实际斑马鱼视频进行处理验证,与现有的算法相比,本文提出的方法在标注率、召回率(recall,R)与遮挡检测率(occlusion detection rate,ODR)等性能指标上有更好的实验效果。其中,在标注性能方面,本文提出的自动标注方法在总标注率上达到87.40%;在训练集效果方面,本文自动标注算法结合人工校正在标注时间上相比于人工标注方法减少93.11%,均值平均精度(mean average precision,mAP)达到79.80%;在目标检测方面,在目标遮挡率为42.72%的情况下,本文检测算法能够获得82.0%的召回率及58.02%的遮挡检测率。 相似文献
18.
This Letter proposes a novel saliency detection method based on biological plausibility of a hypercomplex Fourier spectrum contrast algorithm. The proposed algorithm takes into consideration not only simulation of simple cortical cells in the receptive field of humans but also the texture-color feature global spectrum contrast of an image. First, we utilize log-Gabor filters to mimic simple cortical cells in the receptive field of humans. Two complex numbers of texture colors are acquired through feature maps in hue, saturation, and value color space by log-Gabor. Second, we build the hypercomplex number using these representations of feature maps. Finally, the salient object is detected by spectrum contrast in the hypercomplex Fourier domain. Experimental results show that the proposed algorithm outperforms the state-of-the-art methods. 相似文献