共查询到20条相似文献,搜索用时 46 毫秒
1.
基于随机轨迹模型的汉语连续语音识别方法研究 总被引:1,自引:0,他引:1
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。 相似文献
2.
基于发音特征的汉语普通话语音声学建模 总被引:3,自引:0,他引:3
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 相似文献
3.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。 相似文献
4.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。 相似文献
5.
汉语连续语音识别中一种新的音节间相关识别单元 总被引:1,自引:0,他引:1
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。 相似文献
6.
在源滤波器模型的基础上,利用统计学习方法,建立了一种面向声音变换的混合参数化模型。该模型包括浊音声学模型、清音声学模型和韵律补偿模型三部分。基于线性预测分析和mel倒谱分析的浊音声学模型,刻画了说话人声腔的共振特性。基于线性预测分析和噪声源分析的清音声学模型,反映了说话人发清音的特点。基于统计学习方法的韵律补偿模型描述了音高、能量与时长等分布特性。在该混合参数化模型的基础上,提出了一个声音变换算法,并将其应用到汉语音节的变换问题上。实验结果表明,对清浊音和韵律特性分别建模的变换算法能够提高重建语音的清晰度和可懂度,缩小重建语音与目标语音之间的感知距离,使重建语音具有目标说话人的韵律特征. 相似文献
7.
分别采用基于数据聚类和基于先验知识的两种研究方法,深入探讨了性别、口音、语速、信道等非语境因素对语音数据分类与建模的影响。为了综合考虑语境、非语境因素在统一框架下建模的问题,采用非语境因素扩展决策树方法。而对于这种方法生成的多套非语境因素相关的高精度声学模型,提出一种依据最大似然准则,动态组合生成测试人相关声学模型的算法。这种方法可以使系统相对误识率平均降低8%-10%。实验结果说明为非语境因素分类建模可以提高声学模型的建模能力,而且模型组合算法可以有效解决统一建模所带来的模型选择问题。 相似文献
8.
汉语连续语音数据库的语料设计 总被引:10,自引:0,他引:10
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。 相似文献
9.
对基于连接时序分类准则(connectionist temporal classification,CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能。在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。 相似文献
10.
11.
12.
13.
混合双语语音识别的研究 总被引:1,自引:0,他引:1
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。 相似文献
14.
研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。 相似文献
15.
16.
17.
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。 相似文献
18.
19.
汉语语音资料库的语音学标记及人工切分 总被引:2,自引:0,他引:2
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析. 相似文献
20.
高光谱图像和叶绿素含量的水稻纹枯病早期检测识别 总被引:1,自引:0,他引:1
基于高光谱成像技术和化学计量方法,实现了对水稻纹枯病病害的早期检测识别。以幼苗时期的水稻植株为研究对象,对其进行纹枯病病菌侵染,获得染病植株,采集358~1 021 nm波段范围的高光谱图像,三次实验共240个样本,包括染病植株120个样本和健康植株120个样本。根据高光谱图像的光谱维,对染病水稻叶片和健康水稻叶片提取感兴趣区域(ROI),利用感兴趣区域的光谱数据,对其进行Savitzky-Golay(SG)平滑、Savitzky-Golay(SG)一阶求导、Savitzky-Golay(SG)二阶求导、变量标准化(SNV)和多元散射校正(MSC)预处理,建立线性判别分析(LDA)和支持向量机(SVM)分类模型,结果表明:采用SG二阶求导预处理后的线性判别分析(LDA)模型取得了较好的性能,正确识别率在建模集达98.3%,在预测集达95%;利用载荷系数法(x-loading weights, x-LW)对原始光谱和5种预处理的光谱数据进行特征波长提取,然后根据选取的特征波长建立线性判别分析(LDA)和支持向量机(SVM)分类模型,其中采用SG二阶求导预处理后提取的12个特征波长的线性判别分析(LDA)模型取得了较好的性能,其正确识别率在建模集达97.8%,在预测集达95%,而且基于载荷系数法建立的模型性能与全波段相当,可以通过载荷系数法减少数据量对水稻纹枯病病害进行识别;根据高光谱图像的图像维,研究了基于图像主成分分析、基于概率滤波和基于二阶概率滤波的图像特征提取方法,利用提取的特征变量建立反向传播神经网络(BPNN)和支持向量机(SVM)分类模型,其中基于图像主成分分析的反向传播神经网络(BPNN)模型取得了较好的性能,建模集准确识别率达90.6%,预测集的准确识别率达83.3%;根据高光谱图像光谱维和图像维的最优模型,特将叶绿素含量作为建模的另一个特征,分别与光谱特征、图像特征组合,建立反向传播神经网络(BPNN)和线性判别分析(LDA)模型,提出基于光谱特征加叶绿素含量、图像特征加叶绿素含量和光谱、图像特征加叶绿素含量三种组合方式,其中,光谱特征和图像特征分别与叶绿素组合的方式比之前单独的光谱和图像特征建模性能都有所提升,而且三种组合方式中光谱特征加叶绿素含量的反向传播神经网络(BPNN)建模方式取得本研究所有建模方式中较优的性能,其准确识别率在建模集达100%,在预测集达96.7%。以上研究表明,基于高光谱图像和叶绿素含量对水稻纹枯病病害进行早期识别是可行的,为水稻病害的早期识别提供了一种新方法。 相似文献