首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
发音错误检测与诊断(MDD)任务的专家标注数据稀缺。从添加发音模型更高效地利用有限数据建模发音规律,辅助基于音素识别的MDD的思路出发,提出一种同时融合声学和文本信息,在理论上更完备地建模发音错误产生过程的声学发音模型。基于发音错误产生过程不同部分的声学关联性,该模型通过与音素识别模型共享声学编码器网络参数,以多任务学习方式联合优化,实现辅助建模。并且,提出声学置信度掩蔽-预测训练方式进一步强化两个任务的联系,提高辅助建模效率。实验表明,声学发音模型能够有效建模发音错误规律;利用其辅助音素识别模型建模后,MDD系统在发音错误检测、诊断和音素识别上分别有4.9%,9.5%和14.0%的提升;声学置信度掩蔽-预测训练方法提高了辅助建模效率,掩蔽参数或联合优化参数选择也会影响辅助建模效果。  相似文献   

2.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

3.
基于发音特征的汉语普通话语音声学建模   总被引:3,自引:0,他引:3  
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。   相似文献   

4.
分别采用基于数据聚类和基于先验知识的两种研究方法,深入探讨了性别、口音、语速、信道等非语境因素对语音数据分类与建模的影响。为了综合考虑语境、非语境因素在统一框架下建模的问题,采用非语境因素扩展决策树方法。而对于这种方法生成的多套非语境因素相关的高精度声学模型,提出一种依据最大似然准则,动态组合生成测试人相关声学模型的算法。这种方法可以使系统相对误识率平均降低8%-10%。实验结果说明为非语境因素分类建模可以提高声学模型的建模能力,而且模型组合算法可以有效解决统一建模所带来的模型选择问题。  相似文献   

5.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

6.
邢玉秀  刘纪元 《应用声学》2011,30(5):353-359
本文讨论了合成孔径声纳图像分割问题。首先介绍了Chan-Vese模型水平集方法,针对该模型存在的边界定位和重复初始化等问题,提出了一种改进的水平集方法。该方法的能量模型由区域信息项、边界信息项和距离约束函数构成的内部能量项三部分混合形成,既兼顾了全局优化特性和局部定位精度,又避免了水平集函数重复初始化,提高了运算效率。实验结果表明,该模型对于噪声干扰严重、边缘模糊的合成孔径声纳图像分割效果良好。  相似文献   

7.
刘育坤  郑霖  黎塔  张鹏远 《声学学报》2023,(6):1260-1268
提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。  相似文献   

8.
基于决策树的汉语三音子模型   总被引:8,自引:2,他引:6  
基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(1)基本建模单元集的选择,(2)音子类别集的设计,(3)评估函数的选择,(4)停止准则的选择,(5)决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能:对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24.7%。  相似文献   

9.
忆阻网络是一种基于忆阻器单元的大规模非线性电路,在下一代人工智能、生物电子、高性能存储器等新兴研究领域发挥着重要作用.描述忆阻器单元物理和电学特性的模型对忆阻网络的性能仿真具有显著影响.然而,现有模型主要为非解析模型,应用于忆阻网络分析时可能存在收敛性问题.因此,提出了一种基于同伦分析法(homotopy analysis method, HAM)的忆阻器单元解析建模策略,该策略具有解析性和收敛性优化的特点,可提高忆阻器单元和相应忆阻网络的收敛性.此外,还提出了一种面向忆阻器单元模型的验证准则,以验证模型在大规模忆阻网络中的适用性.通过忆阻器单元和忆阻矩阵网络的长时演化实验以及与传统非解析(数值)方法的比较,验证了所提策略的解析性和收敛性优势;利用不同类型忆阻器单元和输入的实验,验证了该策略的扩展性.进一步地,基于上述实验,揭示了忆阻网络仿真出现收敛性问题的潜在原因.该策略可应用于基于忆阻网络的新兴研究.  相似文献   

10.
混合双语语音识别的研究   总被引:1,自引:0,他引:1  
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。   相似文献   

11.
近红外光谱中包含了物质中有机分子含氢基团的特征信息,具有维度高、冗余大等特点。传统的基于浅层校正模型,比如主成分回归、偏最小二乘回归、人工神经网络、支持向量回归等,无法提取近红外光谱数据深层的信息。提出一种基于堆叠监督自动编码器的近红外光谱建模方法,不仅可以拟合光谱数据与理化值之间复杂的非线性关系,还可以提取数据深层的特征信息。首先通过对比不同的光谱预处理对模型预测结果的影响,选择最优的预处理方法,然后再使用相关系数法提取特征波段。将处理好的近红外光谱数据作为堆叠监督自动编码器的输入信号,利用理化值对多个监督自动编码器进行有监督的预训练;将多个经过预训练的监督自动编码器进行堆叠,得到堆叠监督自动编码器;将预训练的参数作为堆叠监督自动编码器的初始化参数,然后再利用理化值对堆叠监督自动编码器进行有监督的微调,最后得到模型的最优参数。分别利用玉米含水量和黄酒总酸含量等近红外数据集进行验证,建立了偏最小二乘回归预测模型、人工神经网络预测模型、堆叠自动编码器预测模型和堆叠监督自动编码器预测模型,验证了堆叠监督自动编码器建模的可行性;以预测均方根误差和预测相对分析误差两个指标对比分析了偏最小二乘回归、反向传播人工神经网络、堆叠自动编码器及堆叠监督自动编码器四种建模方法的评价指标。分析结果表明,采用该方法建立的模型,模型预测效果更好,玉米含水量数据集的两个评价指标达到了0.060 4和4.313;黄酒总酸含量数据的两个评价指标达到了0.120和4.227,均优于另外三种方法。  相似文献   

12.
邵健  赵庆卫  颜永红 《声学学报》2010,35(5):587-592
研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。   相似文献   

13.
在深海远程正交频分复用(OFDM)水声通信中,信道时延长、频率选择性衰落严重,传统的块独立压缩感知稀疏估计需要较高导频插入密度才能保证一定的估计性能,通信频谱利用率较低。提出了一种基于信道稀疏时变建模的块间迭代信道估计方法,利用深海信道在两个相邻OFDM数据块之间的时间相关性建立块间信道稀疏多途结构的时变关系,在此基础上,对传统稀疏信道估计算法中的候选字典矩阵的字典原子进行删减并改进优化方程,实现了对前一数据块所估信道信息的有效利用,显著降低了信道估计所需的导频插入密度。在深海不同接收深度、不同距离条件下开展了海试验证,实验结果表明,与传统稀疏信道估计方法相比,本方法在导频插入密度减半的条件下可达到优于传统方法的估计性能。  相似文献   

14.
In this study, the problem of sparse enrollment data for in-set versus out-of-set speaker recognition is addressed. The challenge here is that both the training speaker data (5 s) and test material (2~6 s) is of limited test duration. The limited enrollment data result in a sparse acoustic model space for the desired speaker model. The focus of this study is on filling these acoustic holes by harvesting neighbor speaker information to leverage overall system performance. Acoustically similar speakers are selected from a separate available corpus via three different methods for speaker similarity measurement. The selected data from these similar acoustic speakers are exploited to fill the lack of phone coverage caused by the original sparse enrollment data. The proposed speaker modeling process mimics the naturally distributed acoustic space for conversational speech. The Gaussian mixture model (GMM) tagging process allows simulated natural conversation speech to be included for in-set speaker modeling, which maintains the original system requirement of text independent speaker recognition. A human listener evaluation is also performed to compare machine versus human speaker recognition performance, with machine performance of 95% compared to 72.2% accuracy for human in-set/out-of-set performance. Results show that for extreme sparse train/reference audio streams, human speaker recognition is not nearly as reliable as machine based speaker recognition. The proposed acoustic hole filling solution (MRNC) produces an averaging 7.42% relative improvement over a GMM-Cohort UBM baseline and a 19% relative improvement over the Eigenvoice baseline using the FISHER corpus.  相似文献   

15.
This paper addresses the task of recovering the geoacoustic parameters of a shallow-water environment using measurements of the acoustic field due to a known source and a neural network based inversion process. First, a novel efficient "observable" of the acoustic signal is proposed, which represents the signal in accordance with the recoverable parameters. Motivated by recent studies in non-Gaussian statistical theory, the observable is defined as a set of estimated model parameters of the alpha-stable distributions, which fit the marginal statistics of the wavelet subband coefficients, obtained after the transformation of the original signal via a one-dimensional wavelet decomposition. Following the modeling process to extract the observables as features, a radial basis functions neural network is employed to approximate the vector function that takes as input the observables and gives as output the corresponding set of environmental parameters. The performance of the proposed approach in recovering the sound speed and density in the substrate of a typical shallow-water environment is evaluated using a database of synthetic acoustic signals, generated by means of a normal-mode acoustic propagation algorithm.  相似文献   

16.
Periodic amplitude modulations (AMs) of an acoustic stimulus are presumed to be encoded in temporal activity patterns of neurons in the cochlear nucleus. Physiological recordings indicate that this temporal AM code is transformed into a rate-based periodicity code along the ascending auditory pathway. The present study suggests a neural circuit for the transformation from the temporal to the rate-based code. Due to the neural connectivity of the circuit, bandpass shaped rate modulation transfer functions are obtained that correspond to recorded functions of inferior colliculus (IC) neurons. In contrast to previous modeling studies, the present circuit does not employ a continuously changing temporal parameter to obtain different best modulation frequencies (BMFs) of the IC bandpass units. Instead, different BMFs are yielded from varying the number of input units projecting onto different bandpass units. In order to investigate the compatibility of the neural circuit with a linear modulation filterbank analysis as proposed in psychophysical studies, complex stimuli such as tones modulated by the sum of two sinusoids, narrowband noise, and iterated rippled noise were processed by the model. The model accounts for the encoding of AM depth over a large dynamic range and for modulation frequency selective processing of complex sounds.  相似文献   

17.
朱文卿  陈宁  刘坚  于德介 《声学学报》2021,46(3):344-354
针对含概率盒-证据混合认知不确定参数声场的响应预测问题,提出了一种概率盒框架下的改进区间蒙特卡洛方法。该方法首先将混合认知不确定参数转换为纯概率盒形式,然后结合有限元方法推导出混合认知不确定声场的盖根鲍尔多项式代理模型,再采用蒙特卡洛方法求解代理模型得到声压响应。以含概率盒-证据混合认知不确定参数的二维管道声场模型和卡车乘客舱声腔模型为例,计算结果表明混合认知不确定参数影响下的声压响应为概率盒形式,其包括声压响应极值和相应的概率信息,并且所提方法较常规混合离散方法效率更优,较基于一阶摄动法的区间蒙特卡洛方法准确性更高。研究结果表明:所提方法可以有效预测混合认知不确定声场的声压响应,并可进行声学性能的风险和保守估计。   相似文献   

18.
将信号恢复中最优路径搜索的A*正交匹配追踪(A*Orthogonal Matching Pursuit,A*OMP)伪贪婪算法引入到水声通信信道估计中,可以有效改善正交匹配追踪(OMP)算法容易陷入局部最优的问题,并提出了一种改进型的A*OMP水声信道估计算法。改进了路径初始化方式,同时为了避免过多迭代引起的未知误差,将前后两次迭代残差之差作为停止准则。在正交频分复用(OFDM)通信体制下,对OMP、A*OMP和本文改进方法的估计误差和误比特率进行了仿真对比,随着信噪比的增加,改进方法未出现误差平台,且受导频间隔影响较小。仿真结果表明相对于OMP算法和传统A*OMP算法,在高信噪比下改进方法的估计误差分别降低约2和1个数量级,海试数据结果验证了改进方法的可行性,其误比特率分别平均降低42.0%和4.7%。   相似文献   

19.
刘宸  孙宏祥  袁寿其  夏建平  钱姣 《物理学报》2017,66(15):154302-154302
研究基于热声相控阵列的宽频带声聚焦效应.设计新型热声相位控制单元,通过改变单元的空气温度控制声波波速,实现声波透射与反射相位延迟覆盖2π区间.设计四种不同类型的热声相控阵列聚焦透镜,采用8种或2种热声相位控制单元分别实现了透射与反射声聚焦效应.与其他类型的声聚焦透镜相比,热声相控阵列聚焦透镜具有宽频带、高聚焦性能、设计方案简单等优点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号